Bayesian feature enhancement for large vocabulary speech recognition in the presence of noise and reverberation
Final Report Abstract
Das übergreifende Ziel des Vorhabens war die Entwicklung von Verfahren, die eine robuste Spracherkennung für großes Vokabular in Gegenwart von Raumhall und Umgebungsrauschen ermöglichen. Die durchgeführten Arbeiten gliedern sich dabei grob in fünf Bereiche. (i) Die Entwicklung eines Denoising Autoencoder (DA) zur Enthallung von Sprachsignalen. Zum Training eines DA werden normalerweise parallele Daten benötigt, wobei die ungestörte Version des Signals als Ziel an den Ausgang und die gestörte Version an den Eingang des Netzes gelegt werden. Das Besondere des hier entwickelten Verfahrens war, dass parallele Daten nicht benötigt werden, weil das ungestörte Zielsignal mit dem in Vorarbeiten entwickelten Bayes’schen Merkmalsextraktionsverfahren (Bayesian Feature Enhancement (BFE)) geschätzt wird. Damit können auch reale Aufnahmen gestörter Signale, bei denen parallele Aufnahmen von ungestörter und gestörter Version der Signale in der Regel nicht vorhanden sind, zum Training verwendet werden. (ii) Die Entwicklung eines akustischen Strahlformers (Beamformers), dessen Koeffizienten unter Zuhilfenahme eines neuronalen Netzes geschätzt werden. Das neuronale Netz übernimmt die Funktion eines hochauflösenden Sprachaktivitätsdetektors und gibt für jeden Zeit-Frequenz-Punkt an, ob er das Zielsprachsignal enthält oder nicht. Mit dieser vom Netz gelieferten Maske können dann die räumlichen Kovarianzmatrizen des Nutzsignals und der Störung berechnet werden, woraus wiederum die Strahlformerkoeffizienten nach bekannten Regeln statistisch optimaler Mehrkanalfilterung berechnet werden, z.B. die MVDR (Minimum Variance Distortionless Response) Lösung. (iii) Die Entwicklung von Verfahren zum gemeinsamen Training des erwähnten neuronalen Netzes zur Maskenschätzung und des neuronalen Netzes im akustischen Modell des Spracherkenners. Um den Maskenschätzer mit dem Cross Entropy Kriterium am Ausgang des neuronalen Netzes für das akustische Modell trainieren zu können, war es nötig, den Gradienten durch die komplexwertigen Operationen des akustischen Strahlformers zu propagieren. Dazu wurden Ableitungsregeln nach dem Wirtinger Kalkül für die Eigenwertzerlegung komplexwertiger Kovarianzmatrizen entwickelt. Durch die Rückführung des Gradienten aus dem akustischen Modell benötigt das Training des Maskenschätzers keine parallelen Daten mehr. (iv) Die Evaluation der entwickelten Spracherkennungssysteme in internationalen Vergleichstests (CHiME-3 und CHiME-4), bei dem sowohl das Paderborner System alleine als auch das mit dem Projektpartner RWTH Aachen und dem Forschungsinstitut FORTH, Kreta, gemeinsam entwickelte System vordere Plätze belegte. (v) Die Bereitstellung der entwickelten netzunterstützten akustischen Strahlformer als Open Source Software. Die im Rahmen des Projekts entwickelte netzunterstützte akustische Strahlformung wurde von vielen Forschergruppen übernommen. Dieser Erfolg ist zum einen dadurch geschuldet, dass das Thema der geräusch- und hallrobusten Spracherkennung durch den kommerziellen Erfolg der sog. intelligenten Lautsprecher (z.B. Amazon Echo, Google Home oder Apple Homepad) zurzeit in der wiss. Welt eine hohe Aufmerksamkeit erfährt. Der andere Grund liegt sicherlich in dem sehr guten Abschneiden unserer Gruppe bei den CHiME Vergleichstests und der Bereitstellung der Software als Open Source. Die Zusammenarbeit mit der RWTH Aachen hat sich insgesamt für beide Seiten als sehr fruchtbar erwiesen.
Publications
- BLSTM supported GEV Beamformer Front-End for the 3RD CHiME Challenge, in Automatic Speech Recognition and Understanding Workshop (ASRU 2015), December 2015
J. Heymann, L. Drude, A. Chinaev, R. Haeb-Umbach
(See online at https://dx.doi.org/10.1109/ASRU.2015.7404829) - Unsupervised adaptation of a denoising autoencoder by Bayesian Feature Enhancement for reverberant asr under mismatch conditions, in Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on, April 2015, S. 5053–5057
J. Heymann, R. Haeb-Umbach, P. Golik, R. Schlüter
(See online at https://dx.doi.org/10.1109/ICASSP.2015.7178933) - Neural Network Based Spectral Mask Estimation for Acoustic Beamforming, in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2016
J. Heymann, L. Drude, R. Haeb-Umbach
(See online at https://dx.doi.org/10.1109/ICASSP.2016.7471664) - Noise-Presence-Probability-Based Noise PSD Estimation by Using DNNs, in 12. ITG Fachtagung Sprachkommunikation (ITG 2016), Oct 2016
A. Chinaev, J. Heymann, L. Drude, R. Haeb-Umbach
- The RW-TH/UPB/FORTH System Combination for the 4th CHiME Challenge Evaluation, in CHiME4 Workshop, 2016
T. Menne, J. Heymann, A. Alexandridis, K. Irie, A. Zeyer, M. Kitza, P. Golik, I. Kulikov, L. Drude, R. Schlüter, H. Ney, R. Haeb-Umbach, A. Mouchtaris
- Wide Residual BLSTM Network with Discriminative Speaker Adaptation for Robust Speech Recognition, in CHiME4 Workshop, 2016
J. Heymann, L. Drude, R. Haeb-Umbach
- A Generic Neural Acoustic Beamforming Architecture for Robust Multi-Channel Speech Processing, Computer Speech and Language, 2017
J. Heymann, L. Drude, R. Haeb-Umbach
(See online at https://doi.org/10.1016/j.csl.2016.11.007) - BEAMNET: End-to-End Training of a Beamformer-Supported Multi-Channel ASR System, in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2017
J. Heymann, L. Drude, C. Boeddeker, P. Hanebrink, R. Haeb-Umbach
(See online at https://dx.doi.org/10.1109/ICASSP.2017.7953173) - Optimizing Neural-Network Supported Acoustic Beamforming by Algorithmic Differentiation, in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2017
C. Boeddeker, P. Hanebrink, L. Drude, J. Heymann, R. Haeb-Umbach
(See online at https://dx.doi.org/10.1109/ICASSP.2017.7952140) - "NARA-WPE: A Python package for weighted prediction error dereverberation in Numpy and Tensorflow for online and offline processing," Speech Communication; 13th ITG-Symposium, 2018, pp. 1-5. ISBN 978-3-8007-4767-2
L. Drude, J. Heymann, C. Boeddeker, R. Haeb-Umbach
- (2018): Frame-Online DNN-WPE Dereverberation. In: 2018 16th International Workshop on Acoustic Signal Enhancement (IWAENC). 2018. Tokyo, 17.09.2018 - 20.09.2018: IEEE, S. 466–470
J. Heymann, L. Drude, R. Haeb-Umbach, K. Kinoshita, T. Nakatani
(See online at https://doi.org/10.1109/IWAENC.2018.8521255)