Detailseite
Semiüberwachte Koreferenzerkennung
Antragsteller
Professor Dr. Hinrich Schütze
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2009 bis 2021
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 104076539
Viele Bereiche der Maschinellen Sprachverarbeitung (MSV) haben in den letzten Jahren stagniert wegen des großen Aufwands, der für die Annotation von Trainingsmengen erforderlich ist. Wir verfolgen zwei Lösungen: effizienter Erwerb neuer Information und bessere Ausnutzung existierender Information. Wir konzentrieren uns auf Koreferenzresolution, obwohl die zu entwickelnden Methoden auf viele andere MSV-Aufgaben (z.B. das Parsing) anwendbar sind. Basierend auf unseren erfolgreichen Arbeiten im Gebiet der Computer Vision werden wir einen interaktiven Visualisierungsansatz für die halbüberwachte Annotation von großen Datenmengen entwickeln. Mit diesen sehr viel größeren annotierten Datenmengen wird es möglich sein, Vokabular-Merkmale und insbesondere semantische Merkmale zuverlässig zu schätzen. Parallel dazu werden wir neue Methoden entwickeln, die auf globalen Merkmalen basieren und die Trainingsdaten besser ausnutzen können als gegenwärtig möglich. Globale Merkmale können die Leistungsfähigkeit der Koreferenzresolution entscheidend verbessern, weil sie den Lernmethoden Abhängigkeiten zwischen verschiedenen Teilen von Koreferenzstrukturen zugänglich machen. Diese Abhängigkeiten werden zur Zeit noch nicht nutzbringend bei der Koreferenzresolution eingesetzt.
DFG-Verfahren
Sachbeihilfen
Beteiligte Personen
Professor Dr. Gunther Heidemann; Professor Dr. Hans Kamp