Model-based Analysis-by-Synthesis for the Dereverberation of Speech and Audio Signals

Applicant Professor Dr.-Ing. Gerald Enzner

Subject Area Acoustics
Electronic Semiconductors, Components and Circuits, Integrated Systems, Sensor Technology, Theoretical Electrical Engineering

Term from 2008 to 2014

Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 62235747

Final Report Year 2013

Final Report Abstract

Hall und Umgebungsgeräusche stellen ein großes Problem für moderne Kommunikationssysteme dar, da sie die wahrgenommene Sprachqualität beeinträchtigen und zu großen Verlusten in der automatischen Spracherkennung führen. In diesem Projekt wurden blinde Verfahren zur mehrkanaligen Enthallung und Geräuschunterdrückung entwickelt, die auf der iterativen Verknüpfung von Algorithmen der Kanalentzerrung und blinden Kanalidentiﬁkation basieren. Der erste Projektabschnitt diente zunächst der Untersuchung von Entzerrungsalgorithmen und blinden Kanalschätzverfahren. Dabei wurde gezeigt, dass in der MMSE-Lösung (engl., minimum mean square error ) zur Schätzung des Quellensignals bekannte Entzerrungsverfahren enthalten sind, die sich jedoch aufgrund ihres hohen Rechenaufwands nur schwer auf Systemen mit begrenzter Rechenkapazität realisieren lassen. Uns gelang es, die hohe Komplexität durch eine zweistuﬁge Approximation zu reduzieren. Sie führte zu einem eﬃzienten und skalierbaren Algorithmus, der ein Matched Filter Array zur Phasenentzerrung und einen einkanaligen Betragsentzerrer seriell kombiniert. Im Anschluss betrachteten wir blinde Kanalschätzverfahren. Hier zeigte sich, dass bestehende Algorithmen unter schwierigen Bedingungen keine zufriedenstellenden Ergebnisse liefern. Wir konnten nachweisen, dass dies auf einkanalige Faltungsfehler zurückzuführen ist, die mit Hilfe eines FIR-Filters (engl., ﬁnite impulse response) beschrieben werden können. Diese Erkenntnisse mündeten in die Deﬁnition eines Faltungsfehler-kompensierten Systemabstandes – kurz NFPM – als ein neues Werkzeug, welches in Zukunft tiefere Einblicke in das Konvergenzverhalten der jeweiligen Algorithmen für die blinde Kanalschätzung ermöglicht. Der Hauptteil des Projekts diente der systematischen Entwicklung eines iterativen Enthallungsverfahrens basierend auf Maximum-Likelihood, Maximum-a-Posteriori und Variational-Bayesian Schätzverfahren. Die vorgestellten Algorithmen greifen auf ein mehrkanaliges Zustandsraummodell für die akustischen Kanäle zurück, das lineare Beobachtungsgleichungen im Frequenzbereich mit einem Markov-Modell erster Ordnung kombiniert und so das zeitliche Verhalten der Raumimpulsantworten explizit berücksichtigt. Unser Ansatz behandelt die Kanäle und das Quellensignal als Zufallsvariablen und alle anderen Schätzgrößen als Modellparameter. Dies ermöglicht die Deﬁnition einer unteren Schranke an eine Likelihood-Funktion, die wir iterativ mit Hilfe eines Expectation-Maximization-Algorithmus maximieren. Mit Hilfe des Zustandsraummodells leiteten wir Schätzgleichungen für die Kanal-Posterior -Verteilung, die Quellen-Posterior -Verteilung und alle verbleibenden Modellparameter her. Die iterative Verkopplung der Teilsysteme führte schließlich zu einem Algorithmus, der auch in schwierigen akustischen Umgebungen die Schätzung des ungestörten Quellensignals ermöglicht. Unsere Untersuchungen mit instrumentellen Maßen, Spracherkennungsergebnissen und einer Echtzeitimplementierung demonstrieren die Leistungsfähigkeit der entwickelten Verfahren für eine große Bandbreite an Hall- und Geräuschszenarien.

Publications

„Robust Subsystems for Iterative Multichannel Blind System Identiﬁcation and Equalization“, IEEE Paciﬁc Rim Conference on Communications, Computers and Signal Processing, Victoria, BC, Kanada, August 2009, S. 889–893
D. Schmid und G. Enzner
„A Parametric Least-Squares Approximation for Multichannel Equalization of Room Acoustics“, International Workshop on Acoustic Echo and Noise Control (IWAENC), Tel Aviv, Israel, September 2010
D. Schmid und G. Enzner
„A Real-Time Speech Dereverberation Environment Based on Multichannel Parametric Room Equalization“, ITG Fachtagung Sprachkommunikation, Bochum, Deutschland, Oktober 2010
D. Schmid, P. Thüne und G. Enzner
„Evaluation of Adaptive Blind SIMO Identiﬁcation in Terms of a Normalized Filter-Projection Misalignment“, IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Prag, Tschechische Republik, Mai 2011, S. 4140–4143
D. Schmid und G. Enzner
„A Maximum A Posteriori Approach to Multichannel Speech Dereverberation and Denoising“, International Workshop on Acoustic Signal Enhancement (IWA-ENC), Aachen, Deutschland, September 2012 (Best Paper Award)
D. Schmid, S. Malik und G. Enzner
„An Expectation-Maximization Algorithm for Multichannel Adaptive Speech Dereverberation in the Frequency-Domain“, IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Kyoto, Japan, März 2012, S. 17-20
D. Schmid, S. Malik und G. Enzner
„Cross-Relation-Based Blind SIMO Identiﬁability in the Presence of Near-Common Zeros and Noise“, IEEE Transactions on Signal Processing, Vol. 60, No. 1, S. 60–72, Januar 2012
D. Schmid und G. Enzner
„Dereverberation Preprocessing and Training Data Adjustments for Robust Speech Recognition in Reverberant Environments“, ITG Fachtagung Sprachkommunikation, Braunschweig, Deutschland, September 2012
D. Schmid, P. Thüne, D. Kolossa und G. Enzner

Servicenavigation

Hauptnavigation

Model-based Analysis-by-Synthesis for the Dereverberation of Speech and Audio Signals

Final Report Abstract

Publications

Additional Information

Servicenavigation

Hauptnavigation

Model-based Analysis-by-Synthesis for the Dereverberation of Speech and Audio Signals

Final Report Abstract

Publications

Additional Information

Textvergrößerung und Kontrastanpassung