Kontextsensitive automatische Erkennung spontaner Sprache mit BLSTM-Netzwerken
Zusammenfassung der Projektergebnisse
In den letzten Jahren wird Spracherkennung als wohl natürlichster Weg der Mensch-Maschine-Kommunikation immer mehr im Alltag eingesetzt. Während einige spezielle Anwendungsgebiete wie sprach-basierte Internetsuche bereits durchaus zufriedenstellend funktionieren, muss das allgemeine Spracherkennungsproblem weiterhin als ungelöst angesehen werden. Insbesondere gibt es immer noch Probleme in der Erkennung im Störgeräusch (insbesondere im Freisprechmodus) sowie in der Erkennung spontansprachlicher Äußerungen. Diese werden, trotz erheblicher Fortschritte, auch durch die kürzlich popular gewordene akustische Modellierung mit tiefen neuronalen Netzen (DNN) nicht vollig gelöst. Ein wesentliches Problem aktueller Spracherkennungssysteme ist die unzureichende Einbeziehung von Kontext in die mathematische Modellierung. Es ist leicht einzusehen, dass Kontext sowohl im Falle von Störgerausch als auch für die Erkennung von Spontansprache vielversprechend ist, da gegenüber ungestörter, gelesener Sprache (deren Erkennung weitestgehend gelöst ist) nur einige Zeitrahmen Störungen aufweisen (z. B. durch (Überlagerung mit Störgeräuschen, Koartikulationseffekte oder emotionale Färbung), während andere dem ‘idealen’ Sprachmodell nahe kommen und somit der korrekten Zuordnung der daneben liegenden gestörten Zeitrahmen dienlich sein konnen. Zudem kann durch Langzeitkontext eine Anpassung an das Störgerausch erfolgen, da dieses in Sprachpausen isoliert auftritt und daher zur Entstörung in Betracht gezogen werden kann. Ein typisches System zur Spracherkennung verwendet Hidden-Markov-Modelle (HMM), die per Definition der Markov-Bedingung genugen, so dass auf dieser Ebene nur ein Zeitrahmen (typischerweise 25 ms) in der Vergangenheit an Kontext zur Verfügung steht. Längerfristiger Kontext wird nach dem Stand der Technik auf Merkmalsebene (beispielsweise sogenannte Bottleneck-Merkmalsextraktion mittels neuronaler Netze) oder auf der Ebene der Emissionswahrscheinlichkeiten des HMMs (beispielsweise sogenannte hybride Dekodierung mit neuronalen Netzen) eingeführt. Dazu werden einfach Merkmale aus verschiedenen Zeitfenstern miteinander kombiniert. Diese Art von Modellierung hat jedoch wesentliche Nachteile. Die Merkmalskombination aus verschiedenen Zeitfenstern erfordert mehr Modellparameter, insbesondere wenn Langzeitkontext modelliert werden soll; da die Trainingsdaten für ein Spracherkennungssytem in der Praxis begrenzt sind, kann dies zu Überanpassung und somit schlechterer Erkennungsleistung führen. Die Wahl der “richtigen” Kontextlange ist daher nicht trivial. Ein alternativer Ansatz besteht in der Verwendung rekurrenter neuronaler Netze (RNN), die zustandsbehaftet sind, d. h. sich ähnlich wie ein endlicher Automat verhalten. Prinzipiell konnen solche Netze beliebig langen Kontext modellieren, sind jedoch in der Praxis sehr schwierig zu trainieren, da durch die Rekurrenz bedingte Rückkopplungseffekte zu einem Explodieren oder Verschwinden der zu optimierenden Fehlerfunktion führen. Es hat sich in der Praxis als besonders vielversprechend erwiesen, den Funktionseinheiten im neuronalen Netz spezielle Aufgaben zuzuweisen, z. B. als Speichereinheit oder als Einheit, die Lese-, Schreib- oder Löschoperationen durchführt. Diese Überlegung führt auf die sogenannte Long Short-Term Memory (LSTM) Architektur, die im vorliegenden Projekt untersucht wurde. Mit dieser ist es möglich, die notwendige Kontextlange vom Netz selbst lernen und im Anwendungsfall wählen zu lassen. Rekurrente neuronale Netze mit dieser Architektur wurden auf allen Ebenen eines Spracherkennungssytems, von der Signalanhebung uber robuste Merkmalsextraktion und Merkmalsentstörung bis zur Dekodierung, untersucht. Dabei wurden in allen Fallen erhebliche Zugewinne in der Erkennungsleistung auf Spontansprache, Sprache im Störgerausch sowie, als besonders herausforderndem Fall, Spontansprache im Störgerausch, erzielt. Auf den Testdaten der internationalen CHiME Challenge 2013, die nicht-stationäres Störgeräusch, teilweise in negativen Signal-Rauschabständen, sowie erhebliche Verhallung enthält, wurde im Rahmen des Projektes das bisher beste Ergebnis mit LSTM-Netzwerken erzielt und publiziert. In vielen Fällen wurde auch eine erhebliche Verbesserung durch den Einsatz von LSTM-RNN anstelle von herkömmlichen DNN sowie RNN demonstriert. Dies gilt insbesondere für die Merkmalsentstörung. Die Ergebnisse zeigen, dass der Einsatz von LSTM-Netzwerken in der Spracherkennung ein vielversprechendes Forschungsgebiet für die Zukunft ist. Im Rahmen des Projektes wurden eine quelloffene Software für LSTM-Training auf Grafikprozessoren entwickelt, sowie europäische Forschungskooperationen mit Institutionen in Finnland und Belgien im Bereich der robusten automatischen Spracherkennung vertieft.
Projektbezogene Publikationen (Auswahl)
- “Feature Enhancement by Bidirectional LSTM Networks for Conversational Speech Recognition in Highly Non-Stationary Noise,” in Proceedings 38th IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2013. Vancouver, Kanada: IEEE, Mai 2013, S. 6822–6826
M. Wöllmer, Z. Zhang, F. Weninger, B. Schuller, und G. Rigoll
- “Probabilistic ASR Feature Extraction Applying Context-Sensitive Connectionist Temporal Classification Networks,” in Proceedings 38th IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2013. Vancouver, Kanada: IEEE, Mai 2013, S. 7125–7129
M. Wöllmer, B. Schuller, und G. Rigoll
- “Feature Enhancement by Deep LSTM Networks for ASR in Reverberant Multisource Environments,” Computer Speech and Language, Vol. 28, Nr. 4, S. 888–902, Juli 2014
F. Weninger, J. Geiger, M. Wöllmer, B. Schuller, und G. Rigoll
(Siehe online unter https://doi.org/10.1016/j.csl.2014.01.001) - “Memory-Enhanced Neural Networks and NMF for Robust ASR,” IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 22, Nr. 6, S. 1037–1046, Juni 2014
J. T. Geiger, F. Weninger, J. F. Gemmeke, M. Wollmer, B. Schuller, und G. Rigoll
(Siehe online unter https://doi.org/10.1109/TASLP.2014.2318514) - “Probabilistic Speech Feature Extraction with Context-Sensitive Bottleneck Neural Networks,” Neurocomputing, Special Issue on Machine Learning for Non-Linear Processing, Vol. 132, S. 113–120, Mai 2014
M. Wöllmer und B. Schuller
(Siehe online unter https://doi.org/10.1016/j.neucom.2012.06.064) - “Single-Channel Speech Separation With Memory-Enhanced Recurrent Neural Networks,” in Proceedings 39th IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2014. Florenz, Italien: IEEE, Mai 2014, S. 3737–3741
F. J. Weninger, F. Eyben, und B. Schuller
(Siehe online unter https://doi.org/10.1109/ICASSP.2014.6854294) - “Introducing CURRENNT, the Munich open-source CUDA RecurREnt Neural Network Toolkit,” Journal of Machine Learning Research, 16 (2015) 547-551
F. Weninger, J. Bergmann, und B. Schuller