Schätzung und Verwendung von weichen Merkmalsvektoren bei Spracherkennung über Telekommunikationssysteme
Final Report Abstract
Eine Client-Server Architektur, bei der ein Terminal über ein Mobilfunknetz mit einem entfernten Spracherkennungsserver verbunden ist, hat vielfältige Vorteile im Vergleich zu einer Realisierung der Spracherkennung auf dem mobilen Endgerät. Ein wesentlicher Nachteil ist jedoch, dass die Übertragung der Sprache über das Kommunikationsnetz eine zusätzliche Fehlerquelle bedeutet, die die Erkennungsleistung negativ beeinflussen kann. Bitfehler oder Paketverluste können gravierende Auswirkungen auf die Erkennungsgenauigkeit haben. In diesem Vorhaben sollten Verfahren entwickelt werden, die die Robustheit der Spracherkennung gegen Übertragungsfehler erhöhen. Grundsätzlich gibt es zwei Varianten einer Client-Server Lösung. In der ersten Variante wird ein übliches Sprachcodec verwendet, um die Sprache vom Endgerät zum Server zu übertragen. Anschließend wird auf der Serverseite die Merkmalsextraktion und Spracherkennung durchgeführt (sog. "Network Speech Recognition", NSR). Bei der zweiten Variante ist die Merkmalsextraktion auf dem Endgerät implementiert, und die Merkmale werden zum Server übertragen, wo dann die Erkennung erfolgt (sog. "Distributed Speech Recognition", DSR). Für DSR war im ersten Förderabschnitt ein Verfahren zur Erhöhung der Robustheit gegen Übertragungsfehler entwickelt worden, welches aus zwei Komponenten besteht: Zunächst wird die posteriori Wahrscheinlichkeit des ungestörten Merkmalsvektors, gegeben die beobachteten gestörten Merkmalsvektoren, bestimmt. Anschließend wird diese in der Spracherkennung ausgenutzt, indem die Bayes’schen Entscheidungsregel hin zu "Uncertainty Decoding" erweitert wird. Im zweiten Förderabschnitt wurde dieser Ansatz in verschiedene Richtungen weiterentwickelt und insbesondere folgende Ergebnisse erzielt: • Für die bereits im ersten Förderabschnitt verwendete Dekodierregel konnte eine Herleitung gefunden werden, die explizit die gemachten Näherungen offenlegt. Im Gegensatz zu den aus der Literatur bekannten Verfahren des Uncertainty Decodings nutzt die hier entwickelte Variante die Korrelation aufeinander folgender Merkmalsvektoren aus, ein für die betrachtete Anwendung entscheidender Aspekt. • Die Robustheit der verteilten Spracherkennung gegen Übertragungsfehler konnte weiter verbessert werden durch Verwendung eines a priori Modells, welches auch die dynamischen Komponenten des Merkmalsvektors berücksichtigt. • Durch verschiedene Maßnahmen, unter anderem die Rekonstruktion verlorener Merkmalsvektoren mit reduzierter Auflösung, konnte die Berechnung der a posteriori Wahrscheinlichkeit beschleunigt werden bei vernachlässigbarem Effekt auf die Erkennungsrate . • Es wurde ein Verfahren entwickelt, wie die übertragungsfehlerrobuste Erkennung auf netzwerkbasierte Spracherkennung (NSR) übertragen werden kann. Dadurch wurde die Erkennung selbst bei der Verwendung von Sprachcodecs mit eingebauten Fehlerverschleierungsverfahren verbessert. • Es wurde ein Demonstrationssystem zur verteilten Spracherkennung entwickelt. • Schließlich wurde die Übertragbarkeit der entwickelten Ansätze auf die Erkennung von verrauschter Sprache untersucht. Hierbei ergaben sich interessante Einsichten, es sollen jedoch noch weitere Untersuchungen folgen.
Publications
-
R. Haeb-Umbach and V. Ion, "Error Concealment", in Automatic Speech Recognition on Mobile Devices and over Communication Networks, Z.-H. Tan and B. Lindberg (Eds.), Springer, 2008.
-
R. Haeb-Umbach, "Uncertainty Decoding in Automatic Speech Recognition", in Proc. 8. ITG Fachtagung Sprachkommunikation, Aachen, Okt. 2008.
-
V. Ion and and R. Haeb-Umbach, "Multi-Resolution Soft Features for Channel-Robust Distributed Speech Recognition", in Proc. Interspeech, Antwerp, Belgium, Sep. 2007.
-
V. Ion and R. Haeb-Umbach, "Improved Source Modeling and Predictiove Classification for Channel Robust Speech Recognition", in Proc. Interspeech, Pittsburgh, Pa., Sep. 2006.
-
V. Ion and R. Haeb-Umbach, "Investigations into Uncertainty Decoding Employing a Discrete Feature Space for Noise Robust Automatic Speech Recognition", in Proc. 8. ITG Fachtagung Sprachkommunikation, Aachen, Okt. 2008.
-
V. Ion und R. Haeb-Umbach, "A Novel Uncertainty Decoding Rule with Applications to Transmission Error Robust Speech Recognition", IEEE Trans. on Audio, Speech and Language Processing, vol. 16, no. 5, pp. 1047-1060, July 2008.
-
V. Ion und R. Haeb-Umbach, "Uncertainty Decoding for Distributed Speech Recognition over Error-Prone Networks", Speech Communication, vol. 48, no. 11, pp. 1435-1446, 2006.
-
V. Ion, "Transmission Error Robust Speech Recognition using Soft Features", Dissertation, Fachgebiet Nachrichtentechnik, Universität Paderborn, August 2008.