Künstliche Erweiterung der Bandbreite von Sprachsignalen mittels phonetischer Transkription
Zusammenfassung der Projektergebnisse
Die Arbeiten dieses zweijährigen Vorhabens setzten auf dem international als Stand der Technik zu bezeichnenden Verfahren der künstlichen Sprachbandbreitenerweiterung (ABWE) nach P. Jax [9] auf. Sie starteten mit einer Phase der Analyse zur Identifikation der genauen Gründe, warum genau ABWE- Verfahren nach wie vor unter Lispeleffekten leiden. Diese zeitaufwändigen Untersuchungen resultierten in einer Überraschung: Im Bereich der Frikativlaute handelt es sich nicht (nur) um ein Klassifikationsproblem, sondern insbesondere auch um ein Syntheseproblem. Selbst wenn man wüsste, es handelte sich gerade um ein scharfes /s/, so ließe es sich mittels des LBG-trainierten Cepstralvektor-Codebuches des oberen Bandes nicht geeignet darstellen. Ein mittleres /s/ ist offenbar kein /s/. Die Erweiterung des Bayesschen Frameworks auf die Nutzung der Kenntnis des Sprachlautes (phonetische Transkriptionen) im Trainingsfall und optional auch im Testfall gelang wie geplant. Bemerkenswert ist, dass dabei auch ein Term für die Konfidenz der Transkription auftrat, Transkriptionsfehler also Teil des Modells wurden. In der sog. Anwendung A (ABWE für Telefonie) können die Transkriptionen nur im Trainingsprozess genutzt werden, unterstützen dort also z. B. das Design des Codebuchs. Ein phonemspezifisches Codebuchtraining für /s/, /z/ mit Auswahl (nicht Mittelung!) geeigneter Repräsentanten hat einen gewünschten Teilerfolg in der weiteren Reduktion des Lispeleffektes erbracht, der zu einer messbaren Verbesserung der Sprachverständlichkeit führte. In der sog. Anwendung B (ABWE im Offline-Modus mit Kenntnis der Transkriptionen im Test) konnten überragende Ergebnisse erzielt werden. Subjektiv bewertet sind die derart bandbreitenerweiterten Signale sehr ähnlich den originalen Breitbanddaten. Grundsätzlich überrascht dies nicht, zumal es sich hier quasi um eine breitbandige Sprachsynthese mit perfektem unteren Band und damit auch perfekter Sprachmelodie handelt. Möglich wurde dies jedoch nur durch das Redesign des Codebuchs aufgrund der initialen Analysephase. Neben der Verbesserung historischer Aufnahmen ist Anwendung B insbesondere nutzbar für die Bandbreitenerweiterung von Telefonsprachdatensammlungen zum Training breitbandiger (!) Spracherkenner für künftige Breitbandsprachtelefonie. Durch Simulationen wurde der proof of concept erbracht, dass akustische Modelle mittels solcher Daten in der Tat so trainiert werden können, dass man von der höheren Bandbreite des übertragenen Sprachsignals profitiert. Systembetreiber von netzwerkseitig installierten Spracherkennungssystemen können sich folglich auf breitbandige Sprachtelefonie (und ihre neuen Möglichkeiten wie Buchstabieren, Diktieren, etc.) vorbereiten, ohne neue aufwändige Datensammlungen durchführen zu müssen. Unser Anspruch war es, diesen proof of concept auch auf realen Daten zu erbringen. Mit viel (ideeller) Unterstützung von T-Mobile DE und NL (breitbandfähiges 3G-Mobilfunknetz, SIM-Karten), sowie Nokia (stellte zwei eigens präparierte Nokia 6220 Endgeräte zur Verfügung, für die die TU Braunschweig mit je 12.500 Euro haften musste) konnte schließlich in Den Haag eine Übertragung der bekannten TIMIT-Daten über das 3G-Mobilfunknetz von T-Mobile NL unter Nutzung des AMR-Breitband-Sprachcodecs durchgeführt werden. Wie geplant, wurden diese Daten international über das Linguistic Data Consortium (LDC) zugänglich gemacht, die Zeit für den erwünschten proof of concept auf diesen Daten hat jedoch nicht mehr ausgereicht. Das Projekt hat insgesamt sieben Publikationen hervorgebracht, drei auf internationalen Tagungen. Sprachbeispiele finden sich in der elektronischen Version des Berichtsmaterials. Statt einen Folgeantrag über z. B. ein weiteres Jahr zu stellen, freuen wir uns z. Zt. über reges Interesse der Industrie an den Ergebnissen des Projektes. So wurde im Mai 2010 ein ZIM-Förderprojekt mit einer deutschen Telefonfirma genehmigt, ein asiatischer Freisprechsystemhersteller wird in Kürze Code und Trainingstool der ABWE erwerben, die Volkswagen AG plant ebenfalls mit uns ein Projekt. Auch Anwendung B findet erstes Interesse. In einer CeBIT-Ausgabe berichtete die Nachrichtentechnische Zeitung (ntz, Heft 02/2008), zwei Artikel erschienen in der Braunschweiger Zeitung (BZ). Es gibt eine Reihe anschließender Forschungsrichtungen, unter denen die Definition eines objektiven Qualitätsmaßes derzeit die Interessanteste zu sein scheint. Gängige Maße wie z. B. PESQ schlagen bei künstlich bandbreitenerweiterter Sprache völlig fehl. Der gleitende Übergang zu einer parametrischen Sprachsynthese setzt Phantasie frei, jedoch auch die Störgeräuschbefreiung oder das Verarbeiten von Paketverlusten in der Übertragung können mit einem ähnlichen Framework beschrieben werden.
Projektbezogene Publikationen (Auswahl)
-
“Phonetic Analysis and Redesign Perspectives of Artificial Speech Bandwidth Extension,” in Proc. of ESSV 2008, Frankfurt a.M., Germany, Sept. 2008, pp. 215–223
P. Bauer, T. Fingscheidt, and M. Lieb
-
Spectral Restoration of Narrowband Speech Recordings Supported by Phonetic Transcriptions,” in Proc. of NAG/DAGA 2009, Rotterdam, The Netherlands, Mar. 2009, pp. 118–121
P. Bauer and T. Fingscheidt
-
“A Statistical Framework for Artificial Bandwidth Extension Exploiting Speech Waveform and Phonetic Transcription,” in Proc. of EUSIPCO, Aug. 2009, pp. 1839–1843
P. Bauer and T. Fingscheidt
-
“WTIMIT 1.0,” Linguistic Data Consortium, Philadelphia, USA, 2009
P. Bauer and T. Fingscheidt
-
“Investigations on Offline Artificial Bandwidth Extension of Telephone Speech Databases,” in Proc. of ITG Fachtagung Sprachkommunikation 2010, Bochum, Germany, Oct. 2010
P. Bauer, M.-A. Jung, and T. Fingscheidt
-
“On Improving Speech Intelligibility in Automotive Hands-Free Systems,” in Proc. of ISCE 2010, Braunschweig, Germany, June 2010
P. Bauer, M.-A. Jung, J. Qi, and T. Fingscheidt
-
“WTIMIT: The TIMIT Speech Corpus Transmitted Over the 3G AMR Wideband Mobile Network,” in Proc. of LREC 2010, La Valletta, Malta, May 2010, pp. 1566–1570
P. Bauer, D. Scheler, and T. Fingscheidt