Blinde adaptive akustische Strahlformung und Quellentrennung für einen sich bewegenden Sprecher in nichtstationärer akustischer Umgebung
Final Report Abstract
Aus Gründen der Benutzerfreundlichkeit ist es wünschenswert, Sprache mit entfernten Mikrophonen aufzunehmen, so dass der Sprecher kein Mikrophon in der Hand halten oder tragen muss. Dieser Bedienvorteil wird jedoch erkauft durch eine deutlich reduzierte Signalqualität. Durch die größere Entfernung zwischen der Nutzsignalquelle und dem Sensor ist das aufgenommene Signal stärker verrauscht und verhallt, und es werden möglicherweise unerwünschte weitere akustische Signale (z.B. andere Sprecher, Musik) aufgenommen. Mikrophongruppen mit geeigneter nachgeschalteter digitaler Signalverarbeitung sind ein probates Mittel, um die Qualität des aufgenommenen Sprachsignals zu verbessern. Dabei haben sich insbesondere adaptive Strahlformungsalgorithmen als vorteilhaft erwiesen, bei denen die Filterkoeffizienten entsprechend eines statistischen Optimalitätskriteriums fortlaufend an die Mikrophonsignale angepasst werden. Ausgangspunkt der Untersuchungen in diesem Projekt war ein am Fachgebiet entwickeltes Verfahren, das auf der Maximierung des Signal-zu- Rauschleistungsverhältnisses (SNR) in jeder Frequenzkomponente beruht. Dieses Optimierungskriterium führt auf ein Eigenwertproblem, das es adaptiv zu lösen gilt. Ein großer Vorteil dieses Ansatzes ist, dass er „blind“ arbeitet, d.h. es ist keine explizite Bestimmung der Sprecherrichtung notwendig, und die Anordnung der Mikrophone muss nicht bekannt sein. Zu Beginn des Projektes waren am Fachgebiet bereits zwei Varianten dieses Beamformers entwickelt worden, der sog. PCA-Beamformer (PCA: Principal Component Analysis) und der GEV-Beamformer (GEV: Generalized Eigenvalue). Ziel dieses Projektes war, den eigenvektorbasierten Ansatz weiter zu erforschen und in Hinblick auf anspruchsvollere Problemstellungen (nichtstationäre akustische Störungen, blinde Quellentrennung) weiterzuentwickeln. Im Verlauf dieses Projekts wurden dabei folgende Ergebnisse erzielt: • Der Strahlformer wurde zu einer Struktur entsprechend dem „Generalized Sidelobe Canceller“ (GSC) erweitert. Hierzu wurde eine neuartige, auf einer verallgemeinerten Eigenwertzerlegung (Generalized Eigenvalue Decomposition - GEV) beruhende adaptive Blockiermatrix entworfen. Dieser neuartige „GEV-GSC“ erreicht eine höhere Unterdrückung stationärer Störungen bei gleichzeitig geringeren Verzerrungen des Nutzsignals als Vergleichsverfahren aus der Literatur. Außerdem kann eine Adaption trotz Vorhandensein von permanenten stationären Störungen (Rauschen) erfolgen. • Die eigenvektorbasierten akustischen Strahlformer wurden zur Verwendung für eine blinde Quellentrennung erweitert. Der entwickelte Quellentrennungsalgorithmus berücksichtigt dabei explizit, dass neben den zu trennenden Quellen stationäres Hintergrundrauschen vorhanden ist und erzielt neben der Quellentrennung damit eine sehr gute Rauschunterdrückung. • Fasst man die eine Sprachquelle als Nutzsignal und eine andere gleichzeitig aktive Sprachquelle als Störung auf, kann das blinde Quellentrennungsverfahren derart vereinfacht werden, dass sich ein Strahlformer ergibt, der neben stationären Störungen auch nichtstationäre Störungen (weiterer Sprecher) unterdrücken kann. • Es wurde ein neuartiges statistisches Modell zur blinden Identifikation des Mischungssystems entwickelt, welches direktionale Statistiken, d.h. Verteilungen, die auf einer Hyperkugel definiert sind, verwendet. Mit Hilfe des Expectation Maximization (EM) Algorithmus konnten Schätzformeln für die Modellparameter hergeleitet werden, wobei als Nebenprodukt der Parameterschätzung eine Zeit-Frequenzbin genaue Quellenaktivitätswahrscheinlichkeit bestimmt wird, die zur Lösung des Permutationsproblems und zur spektralen Nachfilterung der getrennten Quellensignale verwendet werden kann. Dieses neuartige statistische Modell hat verschiedene Vorteile, unter anderem eine elegante Berücksichtigung von räumlichem Aliasing, und erlaubt eine einheitliche Behandlung der ansonsten meist getrennt betrachteten Probleme der Rauschunterdrückung und blinden Quellentrennung. Die entwickelten Algorithmen wurden in C/C++ realisiert, so dass sich Strahlformungs- und blinde Quellentrennungsverfahren in Echtzeit demonstrieren lassen. Mit den in diesem Projekt entwickelten Verfahren haben wir an der Signal Separation Evaluation Campaign 2010 teilgenommen, um einen objektiven Vergleich mit Konkurrenzverfahren zu ermöglichen. Wenn auch in der Kategorie „Source separation in the presence of real-world background noise“ ein direkter Vergleich nur im Strahlformungsfall möglich war so zeigt ein Vergleich mit den Ergebnissen einer verwandten Aufgabe (spatial image), dass insbesondere die Rauschunterdrückung bei dem hier entwickelten Ansatz besonders gut ist. In diesem Projekt wurde ein einheitliches statistisches Rahmenwerk entwickelt, in das sich blinde Quellentrennung und Störgeräuschunterdrückung bei nur einem Sprecher abbilden lassen und deren Parameter mit dem EM Algorithmus geschätzt werden können. Der gewählte Ansatz hat vielfältige Vorteile, nicht zuletzt derjenige, dass er aufzeigt, auf welche Weise in Zukunft die Modellierung weiter verbessert werden kann.. Wenn im Prinzip die gleichen Verfahren zur Sprachqualitätsverbesserung sowohl bei Vorhandensein von nur einer Quelle (Geräuschreduktion) als auch von mehreren aktiven Quellen (Quellentrennung und Geräuschreduktion) eingesetzt werden, so bietet sich die Möglichkeit, die in der Literatur zur blinden Quellentrennung meist getroffene und in der Praxis wohl kaum zutreffende Annahme einer konstanten und bekannten Anzahl von aktiven Sprechern zu überwinden. Zukünftige Arbeiten zielen daher darauf, ein Sprachqualitätsverbesserungssystem zu entwickeln, das für typische Dialogszenarien geeignet ist, bei denen die Anzahl der gleichzeitig aktiven Sprecher nicht nur unbekannt ist sondern auch noch mit der Zeit variiert, wobei zu den meisten Zeiten wohl nur ein Sprecher aktiv ist. Ein Vorteil des in diesem Projekt entwickelten eigenvektorbasierten Ansatzes ist, dass es sich um ein blindes Strahlformungsverfahren handelt, welches wenig a priori Wissen über die akustischen Randbedingungen (Mikrophonanordnung, Sprecherpositionen) benötigt. Wir glauben, dass dies für viele zukünftige Anwendungen von Bedeutung ist. Mögliche Anwendungen für Mikrophongruppen zur Verbesserung der Sprachqualität sind Telekommunikationsendgeräte, Freisprecheinrichtungen, Telekonferenzsysteme und Sprachdialogsysteme. Neben den klassischen Anwendungen akustischer Signalverarbeitung wird es in Zukunft neue geben (ambiente audio-visuelle Telefonie, intelligente Umgebungen, Überwachungssysteme), in denen Signalverarbeitungsaufgaben um Mustererkennungsfragen ergänzt werden: Es soll nicht nur die Sprachqualität verbessert werden, sondern Sprecherbewegungen sollen verfolgt, die Sprache soll erkannt und andere akustische Ereignisse klassifiziert werden. Hier hoffen wir, durch eine engere Verzahnung des „speech enhancement“ mit der Mustererkennung bisher noch wenig ausgelotetes Optimierungspotenzial ausschöpfen zu können.
Publications
-
“Blind Adaptive Principal Eigenvector Beamforming for Acoustical Source Separation”, in Proc. Interspeech, Antwerp, Belgium, Sep. 2007
E. Warsitz, R. Haeb-Umbach and D.H. Tran Vu
-
Mehrkanalige Sprachsignalverbesserung durch adaptive Lösung eines Eigenwertproblems im Frequenzbereich, 2008
Ernst Warsitz
-
“Blind Speech Separation in Presence of Correlated Noise with Generalized Eigenvector Beamforming”, in Proc. ITG-Fachtagung Sprachkommunikation, Aachen, 8.-10.10.2008
D.H. Tran Vu and R. Haeb-Umbach
-
“Generalized Eigenvector Blind Speech Separation under Coherent Noise in a GSC Configuration”, in Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC), Seattle, USA, Sept. 14-17, 2008
D.H. Tran Vu and R. Haeb-Umbach
-
“An EM Approach to Multichannel Speech Separation and Noise Suppression”, in Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC), Tel Aviv, Israel, Aug. 2010
D. H. Tran Vu and R. Haeb-Umbach
-
“Blind Speech Separation Employing Directional Statistics in an Expectation Maximization Framework”, in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, Dallas, March 2010
D.H. Tran Vu and R. Haeb-Umbach