Gewichtete Baumübersetzer als formales Werkzeug für die Syntax-basierte maschinelle Übersetzung natürlicher Sprachen
Zusammenfassung der Projektergebnisse
Bei der Ubersetzung einer natürlichen Sprache in eine andere standen wegen ihrer Erfolge eine lange Zeit Phrasen-basierte Formalismen im Vordergrund. Einige wichtige der dort verwendeten Algorithmen stammen aus der Automatentheorie und sind algorithmische Umsetzungen von Resultaten über erkennbare Zeichenreihen-Sprachen, finite-state string transducer und deren Abschlußeigenschaften. In den vergangenen 10-15 Jahren wurde aber nachgewiesen - und dies insbesondere von der Gruppe um Prof. Kevin Knight am Information Sciences Institute der University of Southern California, Los Angeles, USA -, daß ein Ansatz, der die syntaktische Struktur der Sätze berücksichtigt, vorteilhaft sein kann. Dieser Syntax-basierte Ansatz wurde im System TIBURON prototypisch implementiert. Die automatentheoretischen Grundlagen hierfür kommen aus der Theorie der erkennbaren Baumreihen und gewichteten Übersetzungen. Allerdings sind für den Syntax-basierten Ansatz noch viele, aus dem Bereich der natürlichen Sprachverarbeitung (natural language processing, NLP) motivierte, d.h. nicht nur intrinsisch theoretische Fragestellungen völlig offen. Im Rahmen dieses Projektes habe ich einerseits mit der Gruppe von Prof. Kevin Knight und andererseits mit meinen Kollegen Prof. Zoltän Fülöp und Dr. Andreas Maletti vier NLP-relevante Fragestellungen bearbeitet: 1. Wenn eine Übersetzung zwischen zwei natürlichen Sprachen L1 und L2 durch einen symmetrischen Formalismus (z.B. durch eine synchronized grammar) gegeben ist, und das Ergebnis w′ ∈ L2 der Übersetzung vorliegt, wie kann man aus w′ das Urbild der Übersetzung decodieren? Mit anderen Worten: wie kann man L2 in L1 übersetzen? 2. Wegen ihrer Komplexität wird die Übersetzung natürlicher Sprachen modular als Kaskade von Teilübersetzungen spezifiziert. Da natürliche Sprachen mehrdeutig sind, wird mit jeder Übersetzung w′ eines Satzes w die jeweilige Wahrscheinlichkeit hierfür verbunden. Wenn nun ein Satz der Sprache L1 vorliegt und ebenfalls eine seiner Übersetzungen w′ in L2 , so stellt sich die Frage: wie kann man effizient die Wahrscheinlichkeit berechnen, mit der w′ eine Übersetzung von w ist? 3. Die Menge aller Übersetzungen eines Wortes zusammen mit den jeweiligen Wahrscheinlichkeiten muß - wenn man den Anspruch auf algorithmische Behandlung stellt - endlich dargestellt werden. Hierfür hat die Theoretische Informatik das Konzept der formalen Grammatik entwickelt. Nun ist die Frage: unter welchen Klassen von NLP-relevanten Übersetzungen bleibt die Möglichkeit der endlichen Repräsentation erhalten? 4. Durch die hohe semantische Ambiguität in natürlichen Sprachen muß sich das NLP-Engineering auf eine Anzahl der wahrscheinlichsten Semantiken beschränken. Die effiziente Berechnung dieser n-best Übersetzungen ist ein zentrales Problem im statistischen sb-MT. Wir haben für diese vier Fragen Teillösungen erarbeitet.
Projektbezogene Publikationen (Auswahl)
- Decoder for probabilistic synchronous tree insertion grammars. Proc. of the 2010 Workshop on Applications of Tree Automata in Natural Language Processing (eds. F. Drewes, M. Kuhlmann), pp. 10–18, Uppsala, Sweden, 16 July 2010, ACL 2010, 2010
S. DeNeefe, K. Knight, H. Vogler
- Efficient inference through cascades of weighted tree transducers. Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (eds. S. Carberry, S. Clark), pp. 1058–1066, Association for Computational Linguistics 2010
J. May, K. Knight, H. Vogler
- n-Best Parsing Revisited, Proc. of the 2010 Workshop on Applications of Tree Automata in Natural Language Processing (eds. F. Drewes, M. Kuhlmann), p. 46-54, ACL 2010, Uppsala, Sweden, 16 July 2010
M. Büchse, D. Geisler, T. Stüber and H. Vogler