Detailseite
Sprachübergreifendes Maschinelles Lernen für Patent-Suche, Phase 2: Leicht überwachtes Lernen sprachübergreifender Systeme
Antragsteller
Professor Dr. Stefan Riezler
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung
Förderung von 2012 bis 2019
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 211613886
Sprachübergreifende Technologien wie Maschinelle Translation (MT) oder sprach übergreifendes Information Retrieval (IR) benötigen menschliche Supervision in Form von domänenspezifischen parallelen Sätzen bzw. Relevanzannotationen für jedes Sprachpaar. Strikte Supervision, wo jeder Satz bzw. jedes Dokument außerhalb der kuratierten Daten als nicht-parallel oder nicht relevant betrachtet wird, ist dabei die Regel. Dieses Verfahren ist einerseits sehr aufwendig und kostspielig, und birgt andererseits die Möglichkeit kaskadierender Fehler in sich. Weiteres konfligiert strikte Supervision mit der Flexibilität natürlicher Sprache und schränkt Adaption auf neue Domänen und Aufgaben stark ein.Wie wir in Phase 1 des DFG geförderten Projekts RI-2221/1-1 zeigen konnten, ist strikte Supervision nicht unbedingt notwendig. Eines der wichtigsten bisherigen Ergebnisse des Projekts ist die Entwicklung von Methoden für sprach übergreifendes IR, die direkt eine ranking-basierte Zielfunktion auf schwach überwachten Daten lernen, wo sprach übergreifende Relevanz über Patentzitationen oder Hyperlinks in Wikipedia Seiten definiert ist, jedoch strikte Parallelität nicht vorliegt. In Phase 2 des Projekts wollen wir versuchen, diese Idee auf den Kopf zu stellen, und erfolgreiche Techniken für schwach überwachtes Lernen in IR für diskriminatives Lernen in MT nutzbar zu machen, und gleichzeitig die verbesserten Techniken auf sprach übergreifendes IR rückführen. Die zentralen Ideen sind dabei Techniken des maschinellen Lernens, die mittels feinkörniger Features und mittels Lerntechniken, die sowohl positive als auch negative Daten mit einbeziehen, schwach überwachte Daten möglichst effektiv auszunutzen verstehen.Die motivierende Anwendung von Phase 2 des Projekts ist MT und sprach übergreifendes IR auf medizinischen Daten. Diese liegen in großen Mengen in quasi-paralleler Form im Internet, in Fachpublikationen, oder in Patentdaten vor. Weiteres bieten sich öffentlich verfügbare Testdaten für Evaluierungszwecke an.
DFG-Verfahren
Sachbeihilfen