Analyse, Modellierung und Synthese sichtbarer Sprechbewegungen bei unterschiedlichen Sprechgeschwindigkeiten
Final Report Abstract
Ein Messsystem zur Aufzeichnung zeitlich hochaufgelöster Videos aus unterschiedlichen Perspektiven mittels vier synchronisierter Kameras (DragonflyExpress, Point Grey Research), dazu synchronen Audioaufnahmen sowie eine semi-automatische Analysesoftware (CLIC'N'TRAK) zur Gewinnung von Bewegungsdaten wurden entwickelt. Das System wurde in einer Untersuchung neutraler und gelächelter Sprechweise getestet. Grundgedanke hierbei war die Erkenntnis, dass beim Lächeln eine Spreizung der Lippen auftritt, gerundete Vokale jedoch eine verringerte Lippenspreizung zur Realisierung benötigen, somit bei gelächelter Sprechweise also ein Konflikt zwischen phonetischartikulatorischen und expressiven Konfigurationen besteht. Als ein Ergebnis der Untersuchung konnten unterschiedliche Artikulationsstrategien bei neutraler und gelächelter Sprechweise sowie unvollständige Kompensation nachgewiesen werden. Eine audiovisuelle Sprachdatenbank mit Äußerungen eines Sprechers in den Sprechgeschwindigkeiten langsam, normal und schnell wurde erstellt. Die Korpora bestehen aus 100 phonetisch ausbalancierten Sätzen, den 25 Sätzen zur Messung der Sprachqualität von J. Sotscheck, sowie den konsonantischen Visemen des Deutschen in den Kontexten {/a/, /i/, /u/} und den vokalischen Visemen des Deutschen. Alle Korpora wurden in den Sprechgeschwindigkeiten langsam, normal und schnell eingesprochen. Eine perzeptive Evaluation der Sprachdaten mit 12 Versuchspersonen ergab eine Erkennungsleistung von 97% im Mittel, wobei kein einzelner Stimulus auffallend selten der intendierten Sprechgeschwindigkeit zugeordnet wurde. Eine manuelle Feinkorrektur der Bewegungsdaten erfolgt im Juli/August 2010. Anschließend wird die Sprachdatenbank kostenfrei der Öffentlichkeit zur Verfügung gestellt. Mit den Audiodaten und ebenfalls mit den (unbereinigten) Bewegungsdaten der Aufnahmen des phonetisch ausbalancierten Korpus wurden Hidden Markov Modelle für langsame, normale sowie schnelle Sprechgeschwindigkeit trainiert. Für beide Datenarten wurden hiermit die Sätze zur Sprachgütemessung in den unterschiedlichen Sprechgeschwindigkeiten synthetisiert. Evaluation und Publikation der Ergebnisse werden zurzeit vorbereitet. Die Initiative zur einheitlichen vergleichenden Evaluation von audiovisuellen Sprachsynthesesystemen, LIPS Challenge, wurde ins Leben gerufen. Begleitend zu internationalen Konferenzen wurden zwei Evaluationsexperimente mit insgesamt 16 teilnehmenden Systemen durchgeführt. Aus der Initiative entstand eine Sonderausgabe der Zeitschrift EURASIP Journal on Audio, Speech, and Music Processing (Hindawi Publishing).
Publications
- 2008 LIPS2008: Visual Speech Synthesis Challenge, Proceedings of INTERSPEECH, Brisbane
Theobald, B.-J., Fagel, S., Bailly, G., Elisei, F.
- 2008. A 3-D Virtual Head as a Tool for Speech Therapy for Children, Proceedings of INTERSPEECH, Brisbane
Fagel, S., Madany, K.
- 2008. A Comparison of German Talking Heads in a Smart Home Environment, Proceedings of the AVSP, Togalooma
Fagel, S., Kuehnel, C., Weiss, B., Wechsung, I., Moeller, S.
- 2008. Avatars in Assistive Homes for the Elderly: A User-Friendly Way of Interaction? Lecture Notes in Computer Science, Springer
Morandell, M., Hochgatterer, A., Fagel, S., Wassertheurer, S.
- 2008. Ein virtueller Kopf für die Sprechtherapie. L.O.G.O.S. interdisziplinär, Elsevier
Madany, K., Fagel, S.
- 2008. Evaluating Talking Heads for Smart Home Systems. Proceedings of ICMI, Chania
Kuehnel, C., Weiss, B., Wechsung, I., Fagel, S., Moeller, S.
- 2008. From 3-D Speaker Cloning to Text-to- Audiovisual-Speech, Proceedings of INTERSPEECH, Brisbane
Fagel, S., Elisei, F., Bailly, G.
- 2008. German Text-to-Audiovisual-Speech by 3-D Speaker Cloning, Proceedings of the AVSP, Togalooma
Fagel, S., Bailly, G.
- 2008. Guided Non-Linear Model Estimation (gnoME), Proceedings of the AVSP, Togalooma
Fagel, S., Madany, K.
- 2008. MASSY Speaks English: Adaptation and Evaluation of a Talking Head. Proceedings of INTERSPEECH, Brisbane
Fagel, S.
- 2008. Objective and Perceptual Evaluation of Parameterizations of 3D Motion Captured Speech Data, Proceedings of the AVSP, Togalooma
Madany, K., Fagel, S.
- 2009. Comparison of Different Talking Heads in Non-Interactive Settings, Proceedings of HCII, San Diego
Weiss, B., Kühnel, C., Wechsung, I., Möller, S., Fagel, S.
- 2009. Effects of Smiled Speech on Lips, Larynx and Acoustics. Proceedings of AVSP, Norwich
Fagel, S.
- 2009. Web-based evaluation of talking heads: How valid is it? Proceedings of the 9th International Conference on Intelligent Virtual Agents
Weiss, B., Kühnel, C., Wechsung, I., Möller, S., Fagel, S.
- 2010. Animating Virtual Speakers or Singers from Audio: Lip-Synching Facial Animation. In G. Bailly, S. Fagel, B.-J. Theobald (eds.): EURASIP Journal on Audio, Speech, and Music Processing, Hindawi Publishing, New York
Fagel, S., Bailly, G., Theobald, B.-J.
- Effects of Smiling on Articulation: Lips, Larynx and Acoustics. In A. Esposito et al. (Eds.): COST 2102 - Lecture Notes in Computer Science 5967, pp. 294-303, Springer, Heidelberg
Fagel, S.