Detailseite
Projekt Druckansicht

Hybridgrammatiken für die Generierung diskontinuierlicher Phrasenstrukturbäume

Fachliche Zuordnung Theoretische Informatik
Förderung Förderung von 2014 bis 2015
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 255344147
 
Die syntaktische Struktur von Sätzen einer natürlichen Sprache wird üblicherweise durch eine kontextfreie Grammatik angegeben. Diese kann dann dazu genutzt werden, einen vorgelegten Satz zu zerlegen (parsen) und diese Zerlegung durch einen Phrasenstrukturbaum (PSB) darzustellen. Jeder PSB ist kontinuierlich (oder projektiv) in dem Sinne, dass an jedem Knoten gilt: im zerlegten Satz liegt die Front (d.h. die Konkatenation der Blattbeschriftungen von links nach rechts) des i-ten Teilbaums links von der Front des j-ten Teilbaums wenn i kleiner als j ist. Bei Sprachen mit relativ freier Wortordnung (z.B. Deutsch oder Niederländisch) treten aber auch diskontinuierliche PSB auf. Beispielsweise erscheinen im Satz "Sie hat oft geschrieben" die Wörter der Front der Verbalphrase "hat geschrieben" nicht aufeinanderfolgend, also diskontinuierlich. Das Phänomen der cross-serial dependencies im Niederländischen führt ebenfalls zu diskontinuierlichen PSB. Beispielsweise gehören in dem Satz "omdat ik Peter Cecilia de nijlpaarden zag helpen voeren" die Wörter "ik"und "zag" zusammen und müssen z.B. gleichermassen gebeugt werden, sie werden aber nicht aufeinanderfolgend platziert; dasselbe gilt für die Wortpaare "Peter-helpen" und "Cecilia-voeren". Im Rahmen dieses kurzen Forschungsprojektes möchte ich ein neues Grammatikkonzept(Hybridgrammatiken) einführen, welches diskontinuierliche PSB erzeugt. Die Regeln einer Hybridgrammatik sind mit Wahrscheinlichkeiten versehen, um bei Mehrdeutigkeiten eine Rangordnung unter allen möglichen PSB für einen vorgelegten Satz zu erstellen. Insbesondere will ich herausfinden, inwieweit Hybridgrammatiken als Werkzeug in der Verarbeitung natürlicher Sprache geeignet sind. Dazu gehören folgende Untersuchungen: Wie kann man Regeln für eine Hybridgrammatik aus einem grossen Korpus automatisch extrahieren? Wie kann man Wahrscheinlichkeiten an die Regeln trainieren? Wie effizient ist ein parser? Die theoretischen Untersuchungen sollen durch praktische Implementierungen begleitet werden.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung