1
Information Search and Retrieval - htdig

Information Search and Retrieval

Vorlesungsblock 05: Query Reformulation, AI in Information Retrieval

Gerald Eigenstuhler
Alexander Hubmann
Daniel Wischounig

Inhalt

Query Reformulation

Das Ziel einer Query Reformulation ist die schrittweise Verfeinerung einer zunächts einfachen Query. Dadurch soll die Menge der relevanten Dokumente optimiert werden. In Abbildung 1 ist die Rolle des Relevance Feedback im Information Retrieval Prozess dargestellt.

Abbildung 1: Übersicht über den Information Retrieval Prozess

Bei der Query Reformulation kann zwischen Search Term Expansion und Search Term Reweighting unterschieden werden.

Da User oft Probleme bei der Erstelling von Queries haben (z.B. durch mangelnde Kenntnisse über Knowledge Domain, Suchsystem oder die Dokument-Collection), ist eine Query Reformulation oft sinnvoll. Die Query Reformulation kann manuell geschehen, d.h. der Benutzer ändert die in seiner Suchanfrage verwendeten Terme selbst ab. Genauso kann sie aber auch automatisch ablaufen, entweder mit oder ohne Benutzerinteraktion (Automatic Query Reforumulation with User Feedback / without User Feedback).

Das Verhalten von Benutzern bei der Suche nach Informationen kann durch Abbildung 2 beschrieben werden.

Abbildung 2: Verhalten der Benutzer

Manual Query Reformulation

Bei der manuellen Query Reformulation ändert der Benutzer während des Suchprozesses die Search Query aktiv selbst, d.h. er verwendet die aus den bisherigen Suchergebnissen gezogenen Erkenntnisse zur Erweiterung bzw. Abänderung der Suchbegriffe. Der Vorteil dabei ist natürlich, dass der Benutzer aktiv und bewusst die Search Query anhand der gefundenen Resultate anpassen kann. Gerade für Poweruser ist dies eine gute Möglichkeit.

Nicht versierte Benutzer können dabei natürlich mit der Anpassung der Query überfordert sein. Desweiteren sind gute Kenntnisse über die verwendete Query Language erforderlich, außerdem muss der Benutzer über entsprechende Domain Knowledge verfügen (Synonyme passend zur Domäne, ...).

Um diesen Nachteile abzuhelfen, können automatische Query-Anpassungen durchgeführt werden.

Automatic Query Reformulation

Wie bereits erwähnt, kann prinzipiell zwischen Query Expansion und Term Reweighting unterschieden werden. Abhängig davon, welche Quellen zur Änderung der Query herangezogen werden, können folgende Lösungen zur Query Reformulation verwendet werden:

  • basierend auf Feedback durch den Benutzer
  • basierend auf Informationen aus den aktuellen Suchergebnissen (Local set of Documents)
  • basierend auf Informationen aus dem gesamten Dokumentenbestand (Document collection)

User Relevance Feedback

Die Methode des User Relvance Feedback basiert auf Feedback durch den Benutzer, sie ist die populärste Technik zur Query Reformulation.

Der Ausgangspunkt für diese Methode ist eine initiale Search Query des Benutzers. Mit dieser Query wird eine erste Suche durchgeführt, der Benutzer bewertet danach die relevantesten 10 bis 20 Dokumente dieser initialen Suche als "relevant" oder "nichtrelevant". Danach kann durch eine Veränderung der Gewichte der Terme bzw. durch eine Erweiterung der Query durch neue Suchbegriffe eine schrittweise Verbesserung erzielt werden. In Experimenten zeigt sich dabei eine gute Verbesserung der Relevanz der Suchergebnisse.

Ein Hauptvorteil der User Relevance Feedback Methode gegenüber anderen Query Reformulation Methoden ist sicherlich, dass der Benutzer vom Prozess der tatsächlichen Query Reformulation abgeschirmt wird. Die einzige Aufgabe des Users ist die Bewertung der Suchergebnisse.
Ein weiterer Vorteil ist die Aufteilung des Suchprozesses in überschaubare Teile:

  • initiale Suche
  • Bewertung durch den Benutzer
  • schrittweise Verbesserung der Ergebnisse
Desweiteren gibt es bei dieser Technik genau definierte Methoden zur Ermittlung der Terme bzw. deren Gewichte.

Bekannte Ausprägungen von User Relevance Feedback sind:

  • Query Expansion und Term Reweighting for Vector Space Model
  • Term Reweighting for Probabilistic Model

Vector Space Model

Die Bestimmung der Relevanz von Dokumenten geschieht über die Ähnlichkeit von Query und Dokument, welche als bezeichnet wird. Es wird dabei davon ausgegangen, dass sich die durch relevante Dokumente definierten Vektoren ähnlich sind (die Dokumente ähneln einander). Auch kann angenommen werden, dass sich die Vektoren von nicht-relevanten Dokumenten von denen der relevanten Dokumente unterscheiden. Die Grundidee des User Relevance Feedback ist damit, die Query so zu verändern, dass sie sich den Vektoren der relevanten Dokumenten annähert. Eine allgemeine Darstellung des durch dieses Verfahren aufgespannten Vektorraumes ist in Abbildung 3 dargestellt.

Abbildung 3: Vector Space Model

Die Ähnlichkeit kann auf mehrere Arten definiert werden, z.B. über den Winkel. Die Definition dieses Zusammenhangs ist in Abbildung 4 ersichtlich.

Abbildung 4: Definition der Ähnlichkeit über den Winkel zwischen Query und Dokument

Die Gewichte der einzelnen Index-Terme werden dabei aus der normalisierten Term Frequenz und der inversen Dokumenten Frequenz bestimmt, wie in Abbildung 5 dargestellt.

Abbildung 5: Bestimmung der Gewichte der einzelnen Index-Terme

Wenn alle relevanten Dokumente bekannt sind, ergibt sich die optimale Query wie in Abbildung 6 dargestellt.

Abbildung 6: Optimale Query im Vector Space Modell

Dabei bezeichnet

  • das Set aller relevanten Dokumente
  • alle Dokumente der Kollektion

Das Problem dabei ist, dass die relevanten Dokumente nicht a priori bekannt sind!

Die Abhilfe dafür sind Methoden, die ausgehend von einer initialen Query eine inkrementelle Annäherung durchführen. Beispiele für solche Methoden sind in Abbildung 7 ersichtlich.

Abbildung 7: Inkrementelle Annäherung an die optimale Query

Dabei bezeichnet

  • das Set aller durch den Benutzer bestimmten relevanten Dokumente
  • das Set aller durch den Benutzer bestimmten nicht relevanten Dokumente
  • Konstanten
  • das höchts-gerankte, nicht relevante Dokument

Wenn gleich 1 sind, entspricht dies der originalen Richio Formel. Wenn , spricht man von einer positiven Feedback Strategie.
Der großen Vorteile dieser Methoden sind ihre Einfachheit und ihre guten Resultate. Die Einfachheit kommt aus der Berechnung der neuen Gewichtsterme direkt aus dem Set der gefundenen Dokumente.

Probabilistic Model

Die Relevanz von Dokumenten geschieht in diesem Modell durch folgenden Zusammenhang, wie in Abbildung 8 dargestellt.

Abbildung 8: Bestimmung der Relevanz

Dabei bezeichnet

  • die Gewichte der Index- und Query-Terme
  • die Wahrscheinlichkeit, dass in einem zufällig ausgewählten Dokument aus vorkommt
  • die Wahrscheinlichkeit, dass nicht in einem zufällig ausgewählten Dokument aus vorkommt (d.h. die Wahrscheinlichkeit, dass in einem nicht-relevanten Dokument vorkommt)

Die Startwerte für diese beiden Wahrscheinlichkeiten werden durch den Zusammenhang aus Abbildung 9 bestimmt.

Abbildung 9: Bestimmung der Startwerte

Die weiteren Werte (inkrementelle Änderung) dieser Wahrscheinlichkeiten werden durch die Formel aus Abbildung 10 bestimmt.

Abbildung 10: Bestimmung der Wahrscheinlichkeiten

Bei kleinen Werte von und sind folgende Zusammenhänge vorzuziehen, wie in Abbildung 11 dargestellt.

Abbildung 11: Bestimmung der Wahrscheinlichkeiten bei kleinen Werten

Die Wahrscheinlichkeiten können allerdings auch durch Interaktion des Benutzers angepasst werden. Dabei ergibt sich folgender Zusammenhang (Abbildung 12):

Abbildung 12: Bestimmung der Wahrscheinlichkeiten, Benutzer Feedback

Dabei bezeichnet

  • das Set aller durch den Benutzer als relevant klassifizierten Dokumente
  • das Set aller durch den Benutzer als relevant klassifizierten Dokumente, die enthalten
  • die Anzahl aller Dokumente der Kollektion
  • die Anzahl der Dokumente, die enthalten
  • Auch hier kann eine Anpassung an kleine Werte durchgeführt werden. Dadurch ändern sich die Zusammenhänge zu (Abbildung 13):

    Abbildung 13: Bestimmung der Wahrscheinlichkeiten, Benutzer Feedback, kleine Werte

    Der Vorteil dieser Methode ist, dass das Benutzer-Feedback direkt im IR-Modell wirkt.

    Ein Nachteil dieser Technik ist, dass sich die Gewichte der Dokumentterme sich bei Feedback nicht auswirken. Die Gewichte der vorherigen Query gehen ebenfalls nicht in eine neue Query ein. Außerdem werden keine neuen Query Terms abgeleitet, sondern nur vorhandene Terme neu gewichtet.

    Query Performance Evaluation

    Allgemein beeinflusst Relevance Feedback Recall und Precision positiv, was zu mehr und besser gerankten Dokumenten führt.

    Bei der Bestimmung dieser Kenngrößen müssen allerdings bestimmte Vorraussetzungen erfüllt werden. Wenn die im Query-Verbesserungs-Schritt als relevant eingestuften Dokumente in die Berechnung mit einbezogen werden, kommt es zu einer Verfälschung.
    Um diese Verfälschung zu vermeiden, werden die im Vorangegangenen bewerteten Dokumenten nicht mehr berücksichtigt. Dadurch ergeben sich zwar tendenziell niedrigere Recall-Precision-Kurven, was jedoch für Vergleiche kein Problem darstellt.

    Artificial Inteligence in Information Retrieval

    Künstliche Intelligenz spielt in den Letzten Jahren in der Informatik eine immer größere Rolle. Selbst in den Medien wird of diskutiert, über die Auswirkungen von künstlichen Intelligenz-Ansätzen zur Lösung verschiedener Problem im Bezug auf die Menschlichkeit oder die Ersetzbarkeit der Menschen. In vielen Bereichen ist dies durch mehr oder weniger intelligente Systeme z.B. Roboter schon geschehen. Genau bei hier setzt auch die Domäne von Information Retrieval an, es wird nach Systemen gesucht:

    • die handeln wie Menschen
    • denken wie Menschen
    • sinnvoll handeln, anders als Menschen
    • sinnvoll denken, anders als Menschen

    Die folgenden Kapitel fallen unter den Aspekt der Künstlichen Intelligenz und wissensbasierten Ansätze:

    Fuzzy Logic, Fuzzy Set Theory

    Fuzzy Logic ist eine Logic die nicht nur einen Richtig und einen Falsch Zustand kennt sondern auch Zustände dazwischen. Diese Aufweichung der Zustandsgrenzen nennt man auch Unschärfe.

    Bei der abstrakten Darstellung von Dokumenten und Suchanfragen durch die Menge von Schlüsselwörtern erhält man Beschreibungen die nur bedingt mit den realen Inhalten verknüpft sind. Daher sind die erhaltenen Dokumente zu einer Anfrage nur ungenau.

    Als Einleitung um die Bedeutung von Fuzzy Logik zu veranschaulichen kann folgendes Beispiel angegeben werden. Es wird von verschiedenen Personen die Raumtemperatur definiert. Wobei die technische Definition von 19° Celsius bis 24° Celsius als Raumtemperatur gilt. In Abbildung 14 ist einerseits eine disktrete Logik zu sehen bei der es nur die strikten Grenzen gibt, andererseits zeigt die Abbilung eine Grafik beider die Raumtemperatur sich um 20° Celsius bewegt. Diese wird mit unscharfen Kanten begrenzt da zum Beispiel für mache Personen 19° Celsius absolut nicht als Raumtemperatur gilt für andere aber schon. Der Zugehörigkeitsgrad in diesen Skizzen beschreibt mit welcher Genauigkeit, ähnlich zur Wahrscheinlichkeit, der jeweilige Temperaturwert als Raumtemperaturwert gezählt wird.

    Abbildung 14: Raumtemperatur als Beispiel zu Erläuterung der Fuzzy Logik.

    Die Idee angewandt auf Information Retrieval bzw. die Dokumenten Domäne ist eine Zugehörigkeitsfunktion zu finden für die jeweiligen Dokumente zu einer gegebenen Anfrage. Es ist sinnvoll diese Funktion Werte im Interval [0,1] annehmen zu lassen wobei 0 bedeutet dass keinerlei Zugehörigkeit existiert und 1 bedeutet vollständige Zugehörigkeit. Wobei die Werte zwischen 0 und 1 als Randwerte oder grenzwertig (marginal) bezeichnet werden. Diese Möglichkeit oder Kennzeichnung existiert in konventioneller Boolscher Logik nicht, dort gibt es nur abrupte Grenzen.

    Definition: Eine Fuzzy Teilmenge eines 'Universums' ist bestimmt durch die Zugehörigkeitsfunktion die zu jedem Element aus eine Zahl im Interval zuordnet.

    Wie auch bei anderen Mengensystemen werden auch hier die drei Mengenoperationen: Komplement, Vereinigungs- und Schnittmenge definiert:

    Definition: Die Menge ist das sogenannte Universum, und sind zwei Fuzzy Teilmengen von und ist das Komplement von bezogen auf . Wenn ein Element von ist gelten folgende Annahmen:

    Abbildung 15: Die Mengenoperationen: Komplement, Vereinigung, Schnitt.

     

    Abbildung 16: Verschiedene Fuzzy Zugehörigkeitsfunktionen.

     

    Ein zusätzlicher Ansatz um die Suchen zu optimieren ist es einen Thesaurus anzupassen um Term Beziehungen herzustellen. Die Grundidee ist es die Menge der Index Terme in einer Anfrage zu erweitern um dann Dokumente die die ursprünglichen Suchterme garnicht enthalten ebenfalls zu finden. Diese erweiterten Suchbegriffe werden dem Thesaurus entnommen der durch die Term-Term Korrelations Matrix bestimmt wird, deren Zeilen und Spalten den Index Termen der Dokumente zugeordnet sind.
    In dieser Matrix ist der normalisierte Korrelations Faktor zwischen zwei Termen und folgend definiert:

    Wobei die Anzahl der Dokumente bestimmt, die den Term enthalten, die Anzahl der Dokumente ist die den Term enthalten und die Anzahl der Dokumente ist die beide Terme enthalten. Diese Korrelations-Metrik wurde schon weitgehend bei den Clustering Algorithmen erläutert. Im Folgenden kann die Term Korrelations Matrix dazu verwendet werden jedem Index Term eine Fuzzy Menge zuzuordnen. In dieser Fuzzy Menge erhält jedes Dokument einen Zugehörigkeitsgrad der als Algebraische Summe aller Terme im jeweiligen Dokumet berechnet wird. Der Einfachheit der Berechnung wird statt der Summe das negative Produkt der Komplemente genommen.

    Ein Dokument gehört dann zu der Fuzzy Menge des Termes wenn seine Terme in Verbindung zu stehen. Wenn auch nur ein Term des Dokumentes stark zu dem Index Term gebunden ist, was durch den Korrelationsfaktor ausgedrückt wird (nahe an 1), dann ist auch nahe an 1 und der Index ist somit ein guter Fuzzy Index für das Dokument. Im anderen Fall, wenn alle Index Terme des Dokumentes nur schlecht mit verbunden werden können ist ein schlechter Fuzzy Index für dieses Dokument, ist dann nahe bei 0.

    In der Anwendung bei der Suche wird vom Benutzer eine Anfrage verlangt. Diese wird unter Benützung der gewöhnlichen Boolschen Logik angegeben. Diese wird dann in die Disjunktive Normalform konvertiert um sie für dieAufweichung der Grenzen durch die Fuzzy Logik vorzubereiten. Das Verfahren ist nun ähnlich, bzw. nahezu identisch dem der Boolschen Logik.

    Allgemein geschrieben: wobei jeder Komponent der disjunktiven Normalform darstellt.

    Beispiel:

    Anhand des folgenden Beispieles wird der Sachverhalt genauer dargelegt. Die Anfrage soll aufgelöst werden. Die Anfrage wird für die Endgültige Auflösung auf die Form gebracht. Um eine Anfrage aufzulösen bedient man sich erst der Vereinfachung zur disjunktiven Normalform, die mit dem Gewichtungsvektor und dem Anfrage Tupel angschrieben wird:

    ,

    Abbildung 17: Grafische Darstellung der Anfrage

    Um nun die einzelnen Komponenten zu finden geht man wie folgt für alle Komponenten vor. Die Fuzzy Menge von Dokumenten für den Index Term wird aus den Dokumenten erzeugt die einen entsprechenden Zugehörigkeitsgrad () der Index Terme aufweisen der einen bestimmten Schwellwert überschreitet. Weiters ist das Komplement von die mit der Negation der Index Terme verknüpft ist. Auf die selbe Weise können die Fuzzy Mengen und definiert werden.
    Die Menge ist die Fuzzy Menge der Anfrage und Antwort die die Vereinigung der einzelnen Komponenten Mengen darstellt. Die Zugehörigkeit eines Dokumentes der Antwort Menge kann wie folgt berechnet werden.

     

    Logic-based Reasoning

    Neurnale Netzwerke

    In einem \emph{Information Retrieval System} werden Dokument
    Vektoren mit Query Vektoren verglichen um ein Ranking für die
    Suchergebnisse zu erhalten. Das bedeutet dass Dokumente und
    Anfragen angepasst und gewichtet werden um das Ranking
    durchzuführen.

    Aus anderen Kontexten ist bekannt, dass \emph{neuronale Netzwerke}
    gut geeignet sind für Mustervergleiche, was daher veranlasst diese
    auch in dieser Domäne einzuführen.

    \subsection{Grundprinzipien}
    Neuronale Netzwerke sind Abbildungen des menschlichen Gehirns, wo
    Milliarden von \emph{Neuronen} auf einfachste Weise miteinander
    ein Netzwerk bilden. Die Mächtigkeit wird durch die große Anzahl
    der Neuronen erklärt.

    Die Funktion eines solchen Netzwerkes ist denkbar einfach, dass
    jedes einzelne Neuron als Basisknoten mit mehreren Ein- und
    Ausgängen gesehen wird. Die Vernetzung erfolgt mit gewichteten
    Verbindungen, die in jedem Neuron dann einen Ausgangswert bewirken
    wenn ein wiederum gewichteter und veränderbarer Schwellwert
    überschritten wird. Jeder Ausgang ist wieder Eingang eines anderen
    Neurons, wodurch ein gigantisches Netzwerk entsteht.

    Als einfache Skizze eines Neuronalen Netzwerks für die Domäne der
    \emph{Information Retrieval Systeme} kann ein drei schichtiger
    vereinfachter Graf angesehen werden (Abbildung
    \ref{fig_neuronal}).

    Die erste Schicht stellt die Menge der \emph{Query Terms} dar, die
    zweite stellt die \emph{Document Terms} dar und die dritte die
    Dokumente selbst.

    Abbildungsverzeichnis

    Abbildung 1: Übersicht über den Information Retrieval Prozess
    Abbildung 2: Verhalten der Benutzer
    Abbildung 3: Vector Space Model
    Abbildung 4: Definition der Ähnlichkeit über den Winkel zwischen Query und Dokument
    Abbildung 5: Bestimmung der Gewichte der einzelnen Index-Terme
    Abbildung 6: Optimale Query im Vector Space Modell
    Abbildung 7: Inkrementelle Annäherung an die optimale Query
    Abbildung 8: Bestimmung der Relevanz
    Abbildung 9: Bestimmung der Startwerte
    Abbildung 10: Bestimmung der Wahrscheinlichkeiten
    Abbildung 11: Bestimmung der Wahrscheinlichkeiten bei kleinen Werten
    Abbildung 12: Bestimmung der Wahrscheinlichkeiten, Benutzer Feedback
    Abbildung 13: Bestimmung der Wahrscheinlichkeiten, Benutzer Feedback, kleine Werte
    Abbildung 14: Raumtemperatur als Beispiel zu Erläuterung der Fuzzy Logik.
    Abbildung 15: Die Mengenoperationen: Komplement, Vereinigung, Schnitt.
    Abbildung 16: Verschiedene Fuzzy Zugehörigkeitsfunktionen.
    Abbildung 17: Grafische Darstellung der Anfrage.

 
Schüler Sicherheits Modell
Das Schüler Sicherheits Modell ist in Zusammenarbeit von ÖAMTC und AUVA entstanden Unter der Leitung von Mag. Karin Kornbrath wurden viele Aktionen ins Leben gerufen um auf Unfallgefahren von Schülern, zuhause, in der Schule und in der Freitzeit hinzuweisen und wie man diese vermeiden kann. Zu diesen Aktionen zählten die Rose-Distel-Aktion bei der angeschnallte Autofahrer von den Schülern mit einer Rose und nicht-angeschnallte mit einer Distel belohnt wurden. Viele weitere spannende wie auch lustige Aktionen am Klagenfurter Messegelände zu den Themen Sicherheit im Freizeitsport und im Straßenverkehr, angefangen beim richtigen Montieren des Kindersitzes im Auto werden im folgenden kurz angeschnitten.

english powerpoint presentation (jan 1998)

english powerpoint presentation (nov 1997 seems to be a beta version)

start video of presentation 1997 kann aus Speicherplatzgründen nicht bereitgestellt werden. Auf Anfrage per Email kann es aber auf CD zugesandt werden.

 
The BioPage

Im Zuge der Lehrveranstaltung 'Multimediale Informationssysteme' wurde in Zusammenarbeit mit den Studenten der Mikrobiologie Fakultät der Karl-Franzens-Universität Graz ein Informationssystem entworfen und implementiert wo die Studenten Informationen aller Art austauschen können.

Read more...
 
Mobile Commerce
This project is the result of researching while the lecture AK E-Commerco in the IICM at the University of Technology Graz.
Read more...
 
RFID Smart Library
Radio Frequency IDentification (short: RFID) is a technology whereby data carried in RFID Tags can be transmitted via antennas to a transceiver in order to satisfy a certain application need. Identification is one of the main application areas and therefore it suits ideally into a library system. After attaching a RFID Tag to every media in a library, identification, lend and inventory management is simplified and saves money and working time of all participants.
The use of RFID technology in Libraries is the main research part of this paper, but also some State of the Art applications, where RFID Tags are used, will be mentioned. A design approach to Levels of Smartness of a library gives an overview of possible applications and the second part of the paper covers the implementation issues, user requirements and the architectural design of a C Library for connecting a Palm OS Tungsten T3 with a RFID Tag-Reader and the user interface with a backoffice Database system for an example library application.
Read more...