Detailseite
Formale Modelle und Algorithmen zur syntaxbasierten maschinellen Übersetzung natürlicher Sprachen
Antragsteller
Professor Dr.-Ing. Heiko Vogler
Fachliche Zuordnung
Theoretische Informatik
Förderung
Förderung von 2011 bis 2014
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 198961575
Beim Maschinellen Übersetzen von Text einer natürlichen Sprache in eine andere muss man insbesondere mit der inhärenten Mehrdeutigkeit von Sprache umgehen. Im Bereich der statistical machine translation (kurz: SMT) werden hierzu Wahrscheinlichkeiten verwandt. Drei wichtige Kernaufgaben der SMT sind (1) das Formalisieren des statistischen Übersetzungsmodell, (2) das Trainieren der Wahrscheinlichkeiten des Übersetzungsmodells und (3) die Konstruktion effizienter Algorithmen zur Berechnung von Übersetzungen (Decoding). Im Rahmen dieses Projekts wollen wir uns auf solche Übersetzungsmodelle beschränken, die als syntaxbasiert bezeichnet werden; sie beziehen die Syntax von Text in ihre Algorithmik mit ein und können dadurch zum Teil bessere Übersetzungen als die phrasenbasierten Ansätze liefern. Unter den Formalismen, die für die syntaxbasierte SMT verwendet werden, wollen wir synchronous tree-adjoining grammars (kurz: STAG) betrachten und durch formalsprachliche/automatentheoretische Untersuchungen die Güte dieses Formalismus für die SMT bewerten. Dann wollen wir versuchen, aus dem Trainieren und Dekodieren einen gemeinsamen algorithmischen Kern herauszuschälen, den man als Parsing bezeichnen kann, und diesen anschließend auf die Problemfelder des Trainierens und Dekodierens anwenden. Überlegungen zur Bestimmung der quantitativen Abweichung der Übersetzung vom Zielsprachmodell sollen unsere Untersuchungen abrunden. Eine Implementierung der Algorithmen ist in jedem Fall erforderlich, weil publizierte Vergleiche verschiedener Ansätze fast immer auf Laufzeiten von Systemen beruhen.
DFG-Verfahren
Sachbeihilfen