Constraint Parsing und psychologische Plausibilität
Zusammenfassung der Projektergebnisse
Verfahren zur maschinellen syntaktischen Analyse natürlichsprachlicher Äußerungen arbeiten in den weitaus meisten Fällen satzbasiert: Erst wenn ein Satz vollständig vorliegt, kann mit der Verarbeitung begonnen werden. Dies steht in starkem Kontrast zum menschlichen Sprachverstehen, das inkrementell, d.h. schritthaltend erfolgt. Dabei stellt ein solcher Verarbeitungsmodus eine wichtige Voraussetzungen für eine effiziente und robuste Sprachkommunikation dar, bei der die zeitliche Dimension der Sprache (z.B. beim Hören) bereits genutzt wird, um partielle Interpretationen für die bisher vorliegenden Satzfragmente aufzustellen, die dann jedoch ggf. an die neu eintreffenden Wortformen angepasst werden müssen. Inkrementelle Verarbeitung ist auch Voraussetzung für eine zeitnahe Reaktion im mündlichen Dialog, durch den eine effiziente Planung des Dialogbeitrags und bestimmte Dialogstrategien, wie Unterbrechung des Dialogpartners und Übernahme der Gesprächsinitiative überhaupt erst ermöglicht werden. Aus psycholinguistischer Sicht ist die zeitliche Dimension des Sprachverarbeitungsprozesses ein wichtiges Fenster auf die zugrundeliegenden Verarbeitungsprozesse, das etwa durch Verfolgen der Blickbewegungen bzw. durch Auswertung von Hirnströmen erschlossen werden kann. Will man, wie es sich diese Projekt zum Ziel gestellt hat, formale Berechnungsmodelle auf ihre psycholinguistische Plausibilität hin untersuchen, ist eine solcher Verarbeitungsmodus essentiell. Aus technischer Sicht, steht diese Zielsetzung eine erhebliche Herausforderung dar, da bei der Analyse von Satzfragmenten globale Informationen, die bei der Entscheidung über die jeweils optimale Interpretation eine wichtige Rolle spielen, noch nicht bzw. nur teilweise zur Verfügung stehen. Daher verzichten die meisten technischen Lösung für die syntaktische Analyse auf einen solchen Modus und gehen bei ihrer Arbeit immer von vollständigen Sätzen aus. Durch die Erweiterung einer bereits existierenden Dependenzgrammatik, die auf unrestringierten deutschen Texten eine sehr hohe Analysequalität erreicht, um eine Repräsentationsebene zur Modellierung von Argumentabhängigkeiten, konnte ein einfacher Mechanismus zur sehr frühzeitigen Zuweisung von groben Argumentrollen (Agens, Patiens, Rezipient) implementiert werden, der auch dann bereits eine rudimentäre Hypothese über die semantische Funktion eines Satzbestandteils aufstellt, wenn das Verb mit seinen Valenzinformationen noch gar nicht bekannt ist. Im Falle eines Konflikts zwischen den neu hinzukommenden Wortformen und der bisherigen Interpretation ändert sich dann das Bewertungsgefüge für die verschiedenen Interpretationsvarianten in einer Weise, die für einen externen Beobachter als Reanalyse wahrgenommen wird, wobei das zeitliche Muster der Uminterpretationen mit sehr guter Genauigkeit den Vorhersagen der zugrundliegenden Theorie folgt und damit auch eine hohe Übereinstimmung mit psycholinguistischen Befunden aufweist. Dieses Verhalten wird durch einen Verarbeitungsmechanismus ermöglicht, der grundsätzlich auf der Indentifikation von Konflikten zwischen Strukturhypothesen und dem Grammatikwissen (Constraintverletzungen) und ihrer Beseitigung durch sukzessive Baumtransformationen beruht. Mit diesem Ergebnis ist erstmals eine Grundlage gegeben, um in den technischen Parametern des Analysesystems nach weitergehenden Korrelaten zu psycholinguistischen Befunden zu suchen. Letztendlich besteht die Erwartung, dass auf dieser Basis ggf. auch Rückschlüsse auf die Verarbeitungsmechanismen beim Menschen gezogen werden können.
Projektbezogene Publikationen (Auswahl)
-
Hybrid Methods of Natural Language Analysis. PhD thesis, Universität Hamburg, Fachbereich Informatik, 2006.
Kilian A. Foth