Project Details
Semantisches Information Retrieval aus Texten am Fallbeispiel Elektronische Berufsberatung (SIR)
Subject Area
Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing
Term
from 2005 to 2016
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 5446581
Wir schlagen einen neuen Ansatz zum Information Retrieval (IR) vor, in dem die Relevanz eines Dokuments in Bezug auf eine Anfrage mit Hilfe von Maßen der lexikalisch-semantischen Ähnlichkeit approximiert wird. Gegenwärtige IR-Systeme bestimmen die Relevanz auf der Grundlage von Booleschen Modellen, Vektorraum-Modellen oder probabilistischen Modellen. Anfragen und Dokumente werden entweder als Mengen von Indextermen oder als Wortvektoren repräsentiert. Durch die Reduktion des Textes auf eine Menge von Wörtern gehen viele relevante Informationen verloren. Zwischen den einzelnen Wörtern existieren semantische und lexikalische Relationen, deren Wichtigkeit für die Bedeutung eines Textes jedoch nicht berücksichtigt wird. Ansätze, die auf das tiefe automatische Sprachverstehen abzielen, waren bisher typischerweise auf enge Domänen beschränkt. In diesem Projekt wird das Information Retrieval mit dem Wissen des GermaNet, eines lexikalisch-semantischen Wortnetzes mit großer Abdeckung, angereichert. Die Zwischenrepräsentation für das Information Retrieval wird verbessert, indem Wörter der natürlichen Sprache auf lexikalische Konzepte dieses Wortnetzes abgebildet werden. Die Relevanz eines Dokuments in Bezug auf eine Anfrage wird auf Grundlage der konzeptuellen Repräsentationen von Anfrage und Dokument und der semantischen Ähnlichkeit der entsprechenden Konzepte ermittelt. Dies bezieht das in GermaNet modellierte lexikalische Wissen, Domänen- und Weltwissen sowie die Ergebnisse einer umfassenden Korpusanalyse mit ein.
DFG Programme
Research Grants
Participating Person
Professor Dr. Max Mühlhäuser