Detailseite
Projekt Druckansicht

Invariante Merkmale für die automatische Spracherkennung

Fachliche Zuordnung Elektronische Halbleiter, Bauelemente und Schaltungen, Integrierte Systeme, Sensorik, Theoretische Elektrotechnik
Förderung Förderung von 2007 bis 2011
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 36043764
 
Erstellungsjahr 2011

Zusammenfassung der Projektergebnisse

Die Leistungsfähigkeit heutiger automatischer Spracherkenner liegt in sprecherunabhängigen Anwendungen und unter vielfältigen Umgebungsbedingungen trotz großer Anstrengungen noch weit hinter der des Menschen. Weit besser sind die Ergebnisse, wenn ein Erkenner, wie im Falle von Diktiergeräten, für einen Benutzer trainiert werden kann und nur von diesem einen Benutzer verwendet wird. Als Grund für die höhere Fehlerwahrscheinlichkeit in sprecherunabhängigen Anwendungen ist die große Variabilität zwischen den Sprechern zu nennen, die sich durch unterschiedliche Vokaltraktdimensionen, Geschlecht, Alter, Dialekt, emotionalen Zustand usw. ergibt und an die sich automatische Erkennungssysteme bislang nur bedingt anpassen können. An dieser Stelle setzt das vorliegende Forschungsvorhaben an. Durch die systematische Anwendung der mathematischen Methoden zur Erzeugung von Invarianten sollten Merkmale aus den Sprachsignalen extrahiert werden, die weitgehend unabhängig von der Vokaltraktdimension des Sprechers und unempfindlich gegenüber äußeren Störeinflüssen sind, aber gleichzeitig eine hohe Diskriminationsfähigkeit bezüglich der zu unterscheidenden Laute besitzen. Die Merkmalsgenerierung für die automatische Spracherkennung geschieht typischerweise mittels einer gehörgerechten Kurzzeit-Spektralanalyse und einer nichtlinearen Dynamikkompression, die in etwa die Lautheitswahrnehmung des Menschen widerspiegelt. Bekannte Beispiele für Merkmale sind die mel frequency cepstral coefficients (MFCC) und die Koeffizienten einer perzeptuellen linearen Prädiktion (perceptual linear prediction, PLP). Verwendet man die genannten Merkmale ohne weitere Sprecheranpassung in sprecherunabhängigen Erkennungssystemen, so ist die Fehlerrate aufgrund der Variabilitäten der Sprecher relativ hoch. Eine besondere Bedeutung hat dabei die Vokaltraktlänge, die die absolute Lage der Formantfrequenzen bestimmt. Um eine Sprecheranpassung und dadurch eine Verringerung der Fehlerrate zu erzielen, wurde die Methode der Vokaltraktlängennormalisierung (VTLN) vorgeschlagen. Darüber hinaus ist auch eine Adaptation der akustischen Modelle an einen gegebenen Sprecher möglich. Diese Adaptation geschieht über eine lineare Transformation und ist aufgrund der Trainingsmethode für die Transformationsmatrix als maximum likelihood linear regression (MLLR) bekannt. Sowohl die VTLN als auch die MLLR sind in der Lage, die Erkennungsrate in sprecherunabhängigen Systemen signifikant zu erhöhen. Nachteile der VTLN und MLLR bestehen darin, dass zum einen genügend viel Adaptationsmaterial zur Verfügung stehen muss und dass zum anderen die Methoden relativ rechenaufwendig sind. Eine Alternative zu den Adaptationsmethoden stellen die in diesem Forschungsvorhaben verfolgten neuen Ansätze zur Generierung vokaltraktlängenunabhängiger Merkmale dar. Zum Zeitpunkt der Antragstellung waren neben der scale transform und dem daraus abgeleiteten scale cepstrum nur die vom Antragsteller vorgestellten VTLI-Merkmale als vokaltraktlängenunabhängige Merkmale bekannt. Im Rahmen des Projekts wurden unterschiedliche neue Merkmalsextraktionsmethoden entwickelt, die auf verschiedenen Invarianztransformationen basieren. Die Berechnung der entwickelten invarianten Merkmale ist dabei als Kette von Verarbeitungsschritten aufzufassen, die im Laufe des Projekts im einzelnen untersucht und optimiert wurden. Vorgeschlagen und veröffentlicht wurden Extraktionsmethoden auf Basis von Transformationen der Klasse CT, auf Basis der generalisierten zyklischen Transformationen (GCT) und mittels einer Integrationsmethode (invariant integration features, IIF). In Experimenten konnte gezeigt werden, dass die Merkmale auf Basis von Transformationen der Klasse CT und der GCT unter den üblichen Trainings- und Testbedingungen etwa die gleichen Erkennungsraten wie die klassischen MFCC-Merkmale liefern, dass sie aber wesentlich robuster gegenüber nichttrainierten Sprechervariabilitäten sind. Für die IIF-Merkmale ergaben sich insgesamt die besten Resultate, denn sie sind nicht nur sehr robust gegenüber Sprechervariabilitäten, die im Training nicht berücksichtigt wurden, sondern führen auch unter angepassten Trainings- und Testbedingungen zu einer deutlichen Steigerung der Erkennungsleistung. Ein besonders bedeutendes Ergebnis ist dabei, dass für die kontext-basierten IIF-Merkmale gezeigt werden konnte, dass sie ohne jegliche Sprecheradaptation bereits bessere Ergebnisse als MFCCs zusammen mit einer VTLN und einer MLLR-Adaptation liefern. Damit ist das ursprünglich gesetzte Ziel bereits erreicht. Um festzustellen, ob die IIF-Merkmale auch von den üblichen Methoden zur Sprecheradaptation mittels VTLN und MLLR profitieren können, wurden diese Kombinationen ebenfalls untersucht. Ferner wurde gezeigt, dass dadurch die Genauigkeit bei der Phonemerkennung noch einmal um 2% (d. h. zwei Prozentpunkte) gesteigert werden konnte. Dies entspricht einer relativen Reduktion der Fehlerwahrscheinlichkeit um 8%. Neben den Invarianztransformationen wurden auch Methoden zur Merkmalskombination untersucht. Durch Experimente mit der ROVER-Methode (recognizer output voting error reduction) konnte gezeigt werden, dass die entwickelten Merkmalstypen und die klassischen Merkmale durchaus unterschiedliche Information tragen, denn durch die ROVER-Kombination konnte die Erkennungsrate noch einmal um zwei Prozentpunkte gesteigert werden. Die Erkennungsraten der Systemkombination liegen damit nahezu so hoch wie die besten jemals für den TIMIT-Datensatz vorgestellten Ergebnisse, obwohl der im Projekt verwendete HTK-Erkenner ohne diskriminatives Training betrieben wurde und vergleichsweise simpel gegenüber dem von IBM eingesetzten Erkenner ist. Bei einer weiteren Verbesserung des Erkenners unter Hinzunahme eines diskriminativen Trainings besteht die Hoffnung, mit den entwickelten invarianten Merkmalen alle bisher für den TIMIT-Datensatz bekannten Ergebnisse zu übertreffen. Zu den weiteren Detailoptimierungen bei der Gewinnung invarianter Merkmale gehörte die Untersuchung der optimalen linearen Kurzzeit-Spektralanalyse. Hier konnte gezeigt werden, dass die am besten für die Sprecheranpassung bzw. Sprecherinvarianz geeignete lineare Filterbank sehr ähnlich zu den Gammaton-Filterbänken ist, die als lineares Ersatzmodell für die periphere Verarbeitung im auditorischen System des Menschen vorgeschlagen wurden. Dies ist als weiterer Hinweis darauf zu werten, dass das Hörsystem des Menschen optimal an die Aufgabe der robusten Erkennung von Sprache angepasst ist. Insgesamt wurden die für das Vorhaben gesteckten Ziele erreicht bzw. sogar übertroffen. Die erzielten Ergebnisse haben auch Hinweise darauf gegeben, durch welche Maßnahmen die Erkennungsleistung der sprecherunabhängigen automatischen Spracherkennung weiter gesteigert und näher an die menschliche Leistung gebracht werden kann. Zukünftige Arbeiten sollen darauf abzielen, die Methoden zur Gewinnung invarianter Sprachmerkmale durch eine genauere Modellierung der Spektralformung im Vokaltrakt und die Verwendung komplexerer auditorischer Modelle für die Kurzzeit-Spektralanalyse weiter zu verbessern. Zudem soll die Robustheit gegenüber äußeren Störeinflüssen bei der Merkmalsauswahl berücksichtigt werden, und es sollten aktive Maßnahmen zur Unterdrückung von Störungen für die invarianten Merkmale untersucht und optimiert werden. Zudem soll die Erkennungsleistung der neu entwickelten Merkmale für Erkennungsprobleme mit größerem Wortschatz demonstriert werden, um die invarianten Merkmale besser in der Spracherkennung zu etablieren. Mögliche Anwendungen sind alle Spracheingabe- und Dialogsysteme, die von beliebigen Sprechern zu benutzen sein müssen, wie zum Beispiel Fahrplan-Auskunftssysteme oder telefonische Buchungssysteme.

Projektbezogene Publikationen (Auswahl)

  • (2009). Generalized cyclic transformations in speaker-independent speech recognition. In Proc. IEEE Automatic Speech Recognition and Understanding Workshop, pages 211–215, Merano, Italy
    Müller, F., Belilovsky, E., und Mertins, A.
  • (2009). Invariant-integration method for robust feature extraction in speaker-independent speech recognition. In Proc. Int. Conf. Spoken Language Processing (Interspeech 2009-ICSLP), pages 2975–2978, Brighton, UK
    Müller, F. und Mertins, A.
  • (2010). Invariant integration features combined with speaker-adaptation methods. In Proc. Interspeech 2010, Makuhari, Japan
    Müller, F. und Mertins, A.
  • (2010). Nonlinear translation-invariant transformations for speaker-independent speech recognition. In Sole-Casals, J. und Zaiats, V., editors, Advances in Nonlinear Speech Processing, volume 5933 of LNAI, pages 111–119, Heidelberg, Germany. Springer
    Müller, F. und Mertins, A.
  • (2011). Contextual invariant-integration features for improved speaker-independent speech recognition. Speech Communication, 53(6):830 – 841
    Müller, F. und Mertins, A.
  • (2011). Robust continuous speech recognition through combination of invariant-feature based systems. In Proc. German Conf. Speech Signal Processing (ESSV 2011), Aachen, Germany
    Müller, F. und Mertins, A.
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung