Robuste Analyse, Erkennung und Interpretation gesprochener Eingaben auf der Basis eines einstufigen stochastischen Decodierungsverfahrens

Applicant Professor Dr.-Ing. Günther Ruske

Subject Area Electronic Semiconductors, Components and Circuits, Integrated Systems, Sensor Technology, Theoretical Electrical Engineering

Term from 2001 to 2004

Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 5288925

Project Description

Das Projekt setzt sich zum Ziel, frei gesprochene Eingaben im Rahmen der Mensch-Maschine-Kommunikation zu erkennen und eine inhaltliche Interpretation im Kontext der festgelegten Aufgabe durchzuführen. Neben der Sprache soll auch die Information aus der Erkennung der Gestik und Mimik des Benutzers sowie graphische Bild- und Textinformation zur Erhöhung der Interpretierbarkeit gleichzeitig ausgewertet werden. Die Spracherkennug führt die Suche nach erwarteten Schlüsselwörtern und Schlüssel-Phrasen durch, die eine Zuordnung zu semantischen Einheiten ermöglichen. Für die akustische Realisierung der Sprachlaute samt ihrer Aussprachevarianten wird auf bekannte Methoden der "Hidden-Markov"-Modelle zurückgegriffen. Die Behandlung der postulierten Wortfolge-Relationen soll z.B. in Form von n-Grammen und Lücken-n-Grammen geschehen. Kennzeichen des Vorhabens ist ein einstufiger, durchgehend stochastischer Ansatz, der die akustische Modellierung, die Interpretation und die Erzeugung der gewünschten Aktion umfasst. Als Anwendungsdomäne wird die Spracheingabe im Automobil gewählt, wo sie die Steuerung von Telefon, Navigationssystem und Radio übernehmen soll. Das Training erfolgt weitgehend durch statistische Analyse von Trainingsmaterial aus dieser Domäne durch "Lernen an Beispielen."

DFG Programme Research Grants

Servicenavigation

Hauptnavigation

Robuste Analyse, Erkennung und Interpretation gesprochener Eingaben auf der Basis eines einstufigen stochastischen Decodierungsverfahrens

Additional Information

Servicenavigation

Hauptnavigation

Robuste Analyse, Erkennung und Interpretation gesprochener Eingaben auf der Basis eines einstufigen stochastischen Decodierungsverfahrens

Additional Information

Textvergrößerung und Kontrastanpassung