Bandbreitenerweiterung von Telefonsprachdatenbanken zum Training breitbandiger automatischer Spracherkenner
Electronic Semiconductors, Components and Circuits, Integrated Systems, Sensor Technology, Theoretical Electrical Engineering
Final Report Abstract
Dieses DFG-Erkenntnistransferprojekt wurde durch die Technische Universität Braunschweig beantragt, um wissenschaftliche Grundlagen zur künstlichen Sprachbandbreitenerweiterung in die Anwendung zu bringen, die in der vorausgehenden DFG-Einzelförderung erforscht wurden. Als Anwendungspartner fungierte die European Media Laboratory GmbH, die sich mit der Entwicklung von Systemen zur automatischen Spracherkennung befasst. Gegenstand dieses bidirektionalen Transfervorhabens war eine Synergie aus beiden Kompetenzfeldern: Die künstliche Erweiterung der akustischen Bandbreite von schmalbandigen Telefonsprachdaten zum Training breitbandiger automatischer Spracherkenner. Die Erkennungsrate von automatischen Spracherkennern steigt mit der akustischen Bandbreite. Sprachqualität und -verständlichkeit beim Telefonieren profitiert vom aufkommenden breitbandigen Sprachservice HD Voice. Daher müssen zukünftige Telefonsprachdialogsysteme für HD Voice ausgelegt sein, um natürlichsprachige Konversationen mit großem Vokabular zu ermöglichen. Das Training der dafür erforderlichen akustischen Modelle erfordert jedoch breitbandige Telefonsprachdaten in sehr großem Umfang. Der im Vorgängerprojekt zu Untersuchungszwecken akquirierte WTIMIT-Korpus ist bislang die einzige breitbandige Telefonsprachdatenbank, aber mit 5.5 h an Sprachmaterial viel zu klein. Andere Sprachdatenbanken enthalten nur schmalbandige Telefonsprache oder Breitband-Studioaufnahmen ohne realistische Telefonübertragungscharakteristik. Da eine erneute Akquise von breitbandigen Telefonsprachdaten sehr zeit- und kostenintensiv ist, insbesondere für seltene kleinere Sprachen, stellt die künstliche Bandbreitenerweiterung herkömmlicher Telefonsprachdatenbanken eine preiswerte und aufwandsarme Alternative dar. Im Rahmen dieses Transfervorhabens wurde die Technologie zur Datenbankerweiterung in die Anwendung gebracht. Dazu hat der Anwendungspartner seine vollständige Trainings- und Testprozesskette der automatischen Spracherkennung zur Verfügung gestellt. Damit konnten praxisnahe Untersuchungen im Gesamtsystem durchgeführt werden. Durch umfangreiche Optimierungen der Trainings- und Testtools zur künstlichen Bandbreitenerweiterung konnte die Performanz noch einmal signifikant gesteigert werden. Im Vergleich zur Erkennungsreferenz, die mit einer begrenzten Trainingsdatenmenge an Breitbandsprache auskommen musste, wurde durch Hinzufügen bandbreitenerweiterter Trainingssprachdaten eine Verbesserung der Wortfehlerrate um ca. 9% relativ nachgewiesen. Im Gegensatz zum bisherigen Stand der Technik, der mittels einer erkennerspezifischen Lösung ein vergleichbares Ergebnis erzielt, kann die hier dargestellte Lösung von potentiellen Anwendern ohne Modifikation am Erkenner eingesetzt werden.
Publications
- “On Improving Telephone Speech Intelligibility for Hearing Impaired Persons,” in Proc. of ITG-Fachtagung Sprachkommunikation, Braunschweig, Germany, Sep. 2012, pp. 275–278
P. Bauer, R.-L. Fischer, M. Bellanova, H. Puder, and T. Fingscheidt
- “A Phonetic Reference Paradigm for Instrumental Speech Quality Assessment of Artificial Speech Bandwidth Extension,” in Proc. of International Workshop on Perceptual Quality of Systems (PQS), Vienna, Austria, Sep. 2013, pp. 36–39
T. Fingscheidt and P. Bauer
- “Impact of Hearing Impairment on Fricative Intelligibility for Artificially Bandwidth-Extended Telephone Speech in Noise,” in Proc. of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Vancouver, BC, Canada, May 2013, pp. 7039–7043
P. Bauer, J. Jones, and T. Fingscheidt
- “Speech Quality Prediction for Artificial Bandwidth Extension Algorithms,” in Proc. of Annual Conference of the International Speech Communication Association (INTERSPEECH), Lyon, France, Aug. 2013
S. Möller, E. Kelaidi, F. Köster, N. Côté, P. Bauer, T. Fingscheidt, T. Schlien, H. Pulakka, and P. Alku
- “Automatic Recognition of Wideband Telephone Speech with Limited Amount of Matched Training Data,” in Proc. of European Signal Processing Conference (EUSIPCO), Lisbon, Portugal, Sep. 2014
P. Bauer, J. Abel, V. Fischer, and T. Fingscheidt
- “HMM-Based Artificial Bandwidth Extension Supported by Neural Networks,” in Proc. of International Workshop on Acoustic Signal Enhancement (IWAENC), Antibes - Juan les Pins, France, Sep. 2014
P. Bauer, J. Abel, and T. Fingscheidt
(See online at https://doi.org/10.1109/IWAENC.2014.6953304) - “On Speech Quality Assessment of Artificial Bandwidth Extension,” in Proc. of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Florence, Italy, May 2014
P. Bauer, C. Guillaumé, W. Tirry, and T. Fingscheidt
(See online at https://doi.org/10.1109/ICASSP.2014.6854772)