Integrierte semantische Modellierung für die Interpretation fließender Sprache
Zusammenfassung der Projektergebnisse
Das vorliegende Projekt hatte zum Ziel, die entwickelten Verfahren zur semantischen Interpretation von fließender Sprache im Vorgängerprojekt mit Hilfe eines Wissensmodells für andere Anwendungsdomänen leichter zu erschließen. Das syntaktisch-semantische Wissen wurde hierbei durch ein hierarchisches Sprachmodell beschrieben, welches aus einer Hierarchie von Transitionsnetzwerken besteht und damit äquivalent zu einer gewichteten kontextfreien Grammatik ist. Ein Hauptkennzeichen dieses Forschungsvorhabens war die Erstellung eines Rahmenmodells, welches eine Decodierung des semantischen Wissens mit Hilfe von statistischen und regelbasierten Methoden erlaubt. Innerhalb des Rahmenmodells wurden verschiedene Methoden zur semantischen Decodierung entwickelt und getestet. In einem ersten Verfahren werden durch eine geschickte Kombination von Annotation und erweiterten kontextfreien Grammatiken (ECFG) semantische Inhalte aus natürlich gesprochenen Sätzen extrahiert. Mit diesem Verfahren konnte eine Akzeptanzrate von 95; 4% (F1-measure von 95; 6%) erreicht werden, welche mit einem hierarchisch gelabelten Korpus ( b=100%) mit 1300 Sätzen verglichen wurde. In einem zweiten Verfahren werden semantische Inhalte mit Hilfe von Graphischen Modellen extrahiert. Graphische Modelle verbinden die Wahrscheinlichkeits- und die Graphentheorie. Mit Knoten und Kanten werden statistische Abhängigkeiten zwischen Wortklassen und semantischen Konzepten ausgedrückt. Mit Hilfe dieses Verfahrens konnte ein F1-Measure von 93; 7% erreicht werden, welches mit dem hierarchisch gelabelten ATIS-Korpus (b=100%) verglichen wurde. In einem weiteren Schritt wurde untersucht, inwieweit das hierarchisch stochastische Wissensmodell für automatische Datenbankabfragen geeignet ist. Dazu wurden verschiedene Modelle, wie z. B. das Hidden Information State (HIS) Modell untersucht, um Informationen in geeigneter Form darzustellen. Dieses Modell kann eine dahinter liegende Datenbank in einer hierarchischen Baumstruktur repräsentieren. In verschiedenen Experimenten wurde versucht, semantische Inhalte aus der Datenbank mittels der Datenbankabfragesprache SQL und einem Postprocessing-Verfahren zu extrahieren. Letzteres Verfahren diente einer einheitlichen Darstellung von unterschiedlich gesprochenen, semantischen Informationen (z. B. bei der Uhrzeit: halb fünf, 16 Uhr 30). Zuvor wurden die Parameter des hierarchisch stochastischen Wissensmodells mit einem Trainingskorpus (ATIS, NADIA) für eine eng umgrenzte Domäne mit dem bekannten Expectation Maximization (EM) Verfahren eingestellt.
Projektbezogene Publikationen (Auswahl)
-
R. Lieb, M. Thomae, G. Ruske, D. Bobbert, und F. Althoff,In Proc. of the 9th European Conference on Speech Communication and Technology (Eurospeech 2005),Lisbon, Portugal, Sept. 2005.
-
S. Schwärzler, J. Schenk, F. Wallhoff, und G. Ruske, Natural Language Understanding By Combining Statistical Methods And Extended Context-free Grammars, In Proc. of the 30th Symposium of the German Association for Pattern Recognition (DAGM), Seite 254 - 263, München, Juni 2008.
-
Lieb, R.: Effziente einstufige Verarbeitung hierarchisch geglie- derter Wissensquellen in Sprachinterpretationssystemen, Technische Universität München, Lehrstuhl für Mensch-Maschine- Kommunikation, Diss., 2006
-
M. Thomae, T. Fabian, R. Lieb, und G. Ruske, Hierarchical Language Models for One-Stage Speech Interpretation,In Proc. of the 9th European Conference on Speech Communication and Techno- logy (Eurospeech 2005),Lisbon, Portugal, Sept. 2005.
-
M. Thomae, T. Fabian, R. Lieb, und G. Ruske, Lexical Out-of- Vocabulary Models for One-Stage Speech Interpretation, In Proc. of the 9th European Conference on Speech Communication and Technology (Eurospeech 2005),Lisbon, Portugal, Sept. 2005.