Detailseite
EVIDENCE: Computer-unterstützte interaktive Extraktion guter Wörterbuchbeispiele aus großen Korpora
Antragstellerinnen / Antragsteller
Privatdozent Dr. Alexander Geyken; Professorin Dr. Iryna Gurevych
Fachliche Zuordnung
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2019
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 433249742
Das Projekt bringt Informatiker und Lexikographen zusammen, um ein wichtiges lexikographisches Problem zu lösen: die Identifizierung und Extraktion guter Wörterbuchbeispiele aus einer großen Anzahl von Korpusbeispielen. Maschinelles Lernen wird eingesetzt, um Lexikographen bei der Auswahl guter Beispiele aus Korpora für die Aufnahme in Wörterbuchartikel zu unterstützen. Der Einsatz von maschinellem Lernen soll die Aufgabe der Lexikographen erleichtern, indem es Beispiele nach ihrer gemessenen Qualität ordnet und damit die Aufmerksamkeit der Lexikographen auf die besten Beispiele lenken. Da Qualität und Angemessenheit von Beispielen aus Korpora nicht klar definiert sind, kann auch unter professionellen Lexikographen nicht immer ein einstimmiges Urteil erzielt werden. Durch den Einsatz von interaktiven Lernen planen wir, ein adaptives maschinelles Lernmodell auf Präferenzen zu trainieren, von denen wir annehmen, dass sie für verschiedene Lexikographen einstimmiger sind, da es wahrscheinlicher ist, dass sie sich darauf einigen, dass Beispiel 1 besser ist als Beispiel 2, als dass sie sich auf explizite Werte für beide Beispiele einigen. Darüber hinaus ist geplant, das Urteil von Wörterbuchbenutzern (d.h. informierten Laien) über eine Reihe von guten Beispielen zu erfassen und zu integrieren. Das Ergebnis des Projekts wird ein System für die Extraktion, Klassifizierung und Bewertung von Korpusbeispielen sein. Dieses System wird zunächst im Rahmen des DWDS getestet. Dort wird es die Lexikographen bei ihrer täglichen Arbeit unterstützen. Es wird erwartet, dass das endgültige System für jedes Stichwort eine Reihe von guten Beispielen präsentiert, die ausreichend vielfältig sind, um verschiedene Facetten der tatsächlichen Verwendung dieses Wortes zu veranschaulichen. Darüber hinaus wird es einen Mehrwert auch für Laien schaffen, da es auch für Schlagworte, die noch nicht vollständig lexikalisch behandelt wurden, gute Beispiele liefert. Das neue System wird es jedem Benutzer ermöglichen, Feedback über die Qualität der vom System verwendeten Beispiele zu geben. So konsumieren die Studierenden z.B. im Rahmen der Lehre nicht mehr nur, sondern beteiligen sich aktiv an der Entwicklung einer lexikografischen Ressource. Das Projekt wird Workshops organisieren, um Early Adopter zu gewinnen und Feedback aus der Community zu erhalten. Somit wird die vorgeschlagene Methode und ihre Anwendung für andere Wörterbuchprojekte nützlich sein, da sie sprachunabhängig und einfach in aktuelle, moderne Lexikographiesysteme zu integrieren sein werden.
DFG-Verfahren
Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)