Analyse und Modellierung von Rauschquellen im Vokaltrakt mit einem neuen Messverfahren zur 3D-Echtzeit-Rekonstruktion der Mundhöhle
Zusammenfassung der Projektergebnisse
Es wurde ein neuartiges Messverfahren, die Elektro-Optische Stomatographie (EOS), entwickelt, mit der Zungen- und Lippenbewegungen an einem menschlichen Sprecher während des Sprechens in Echtzeit robust gemessen und visualisiert werden können. Die Technik fußt auf einer mit elektrischen und optischen Sensoren bestückten Gaumenplatte, die vom Sprecher wie eine lose Zahnspange im Mund getragen wird. Die elektrischen Sensoren erfassen den Kontakt zwischen Zunge und hartem Gaumen, während die optischen Sensoren entlang der sagittalen Mittellinie des Gaumens den Abstand zwischen Zunge und Gaumen messen können. Ein weiterer optischer Sensor sitzt an den vorderen Schneidezähnen und registriert die Öffnung und Vorstülpung der Lippen. Die Technik ist minimal-invasiv, einfach anzuwenden, günstig herzustellen und ausreichend präzise, um wissenschaftlich relevante Daten zu erheben. Zur Darstellung der gewonnenen Daten sind im Projekt verschiedene Software-Programme entwickelt worden. Diese reichen von Werkzeugen zur Analyse der Zeitreihen der Messwerte über Biofeedbackanwendungen durch Visualisierung als Vokaltraktmodell bis hin zu einem Demonstrator eines Therapiespiels, bei dem die Artikulationsbewegungen der Zunge zur Steuerung der Spielfigur genutzt werden. Das entwickelte System, das ursprünglich in erster Linie für die Analyse der Hohlraumform der vorderen Mundhöhle gedacht war, ist bei unseren Präsentationen auf den einschlägigen internationalen Fachkonferenzen auf sehr großes Interesse gestoßen. Das zeigen u. a. die Auszeichnung des Projektmitarbeiters mit einem ISCA-Grant zur Teilnahme an der Interspeech 2013 sowie Posterpreise auf den Tagungen LingUnite 2014 und DGPP 2014. Für den Ausbau der Technologie zu einem marktreifen Produkt und für ihre Erprobung in neuen Einsatzszenarien, insbesondere der Erkennung still gesprochener Sprache (Silent Speech Recognition), wird bereits in einem Folgeprojekt mit Partnern aus der Industrie gearbeitet. Das Ziel der Verbesserung der Modellierung von Rauschquellen im Vokaltrakt für die artikulatorische Sprachsynthese wurde zum großen Teil erreicht. Hierzu wurde das Konzept der „Enhanced Area Function“ als abstrakte Repräsentation des Vokaltrakts erdacht und implementiert, die den Vokaltrakt nicht nur akustisch repräsentiert, sondern auch die notwendigen Informationen für die Einfügung und Parametrisierung von Rauschquellen bereithält. Auf dieser Basis können die Erkenntnisse aus dem aktuell vorbereiteten Experiment zur Produktion von Frikativen und Plosiven direkt in die artikulatorische Synthese übertragen werden. Die natürlichere Synthese von Frikativen und Plosiven in der artikulatorischen Sprachsynthese ist ein wesentlicher Schritt zu einer Natürlichkeit und Verständlichkeit der Synthese, die mit konventionellen Syntheseansätzen (Unit-Selection-Sprachsynthese) vergleichbar ist oder darüber hinausgeht.
Projektbezogene Publikationen (Auswahl)
-
(2013). Prospects of EPG and OPG sensor fusion in pursuit of a 3D real-time representation of the oral cavity. In: Wagner P (Hrsg.) Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2013 (TUDPress, Dresden), S. 144-151
Preuß S, Neuschaefer-Rube C, Birkholz P
-
(2013). Real-time control of a 2D animation model of the vocal tract using optopalatography. In Proc. of the Interspeech 2013, S. 997-1001, Lyon, Frankreich
Preuß S, Neuschaefer-Rube C, Birkholz P
-
(2014). Evaluation of an OPG-controlled animated vocal tract model as a biofeedback system. In Proc. of the 10th International Seminar on Speech Production (ISSP 2014), S. 340-343, Köln, Deutschland
Preuß S, Neuschaefer-Rube C, Birkholz P
-
(2014). Tongue contour reconstruction from optical and electrical palatography. IEEE Signal Processing Letters, 21(6), S. 658-662
Mumtaz R, Preuß S, Neuschaefer-Rube C, Hey C, Sader R, Birkholz P
-
(2015). Optical sensor calibration for Electro-Optical Stomatography. In: Proc. of the Interspeech 2015, S. 618-622, Dresden, Germany
Preuß S, Birkholz P