Detailseite
Projekt Druckansicht

Semantisches Information Retrieval aus Texten am Fallbeispiel Elektronische Berufsberatung (SIR)

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2005 bis 2016
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 5446581
 
Wir schlagen einen neuen Ansatz zum Information Retrieval (IR) vor, in dem die Relevanz eines Dokuments in Bezug auf eine Anfrage mit Hilfe von Maßen der lexikalisch-semantischen Ähnlichkeit approximiert wird. Gegenwärtige IR-Systeme bestimmen die Relevanz auf der Grundlage von Booleschen Modellen, Vektorraum-Modellen oder probabilistischen Modellen. Anfragen und Dokumente werden entweder als Mengen von Indextermen oder als Wortvektoren repräsentiert. Durch die Reduktion des Textes auf eine Menge von Wörtern gehen viele relevante Informationen verloren. Zwischen den einzelnen Wörtern existieren semantische und lexikalische Relationen, deren Wichtigkeit für die Bedeutung eines Textes jedoch nicht berücksichtigt wird. Ansätze, die auf das tiefe automatische Sprachverstehen abzielen, waren bisher typischerweise auf enge Domänen beschränkt. In diesem Projekt wird das Information Retrieval mit dem Wissen des GermaNet, eines lexikalisch-semantischen Wortnetzes mit großer Abdeckung, angereichert. Die Zwischenrepräsentation für das Information Retrieval wird verbessert, indem Wörter der natürlichen Sprache auf lexikalische Konzepte dieses Wortnetzes abgebildet werden. Die Relevanz eines Dokuments in Bezug auf eine Anfrage wird auf Grundlage der konzeptuellen Repräsentationen von Anfrage und Dokument und der semantischen Ähnlichkeit der entsprechenden Konzepte ermittelt. Dies bezieht das in GermaNet modellierte lexikalische Wissen, Domänen- und Weltwissen sowie die Ergebnisse einer umfassenden Korpusanalyse mit ein.
DFG-Verfahren Sachbeihilfen
Beteiligte Person Professor Dr. Max Mühlhäuser
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung