Project Details
Projekt Print View

Die automatische zeitliche Vermessung sprachlicher Äußerungen im Deutschen, Englischen und Niederländischen: Entwicklung einer Software für experimentelle Psycholinguisten

Subject Area General and Comparative Linguistics, Experimental Linguistics, Typology, Non-European Languages
Term from 2011 to 2017
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 210665433
 
Final Report Year 2017

Final Report Abstract

Ziel des Projektes war die Weiterentwicklung und Evaluierung eines Tools zur automatischen zeitlichen Segmentierung von sprachlichen Äußerungen. In den meisten Sprachproduktionsstudien dienen die Latenz, mit der die Teilnehmer sprachlich auf einen Stimulus reagieren, und/oder die zeitliche Struktur ihrer Äußerungen (Beginn und Ende einzelner Wörter) als abhängige Variablen. Dabei ging es sowohl um die Erfassung des Äußerungsonsets als auch um die Erfassung eines Wortonsets und -offsets innerhalb der Äußerung. Untersuchte Sprachen waren Deutsch, Englisch und Niederländisch. In Abgrenzung zu anderen Vermessungstools wurde dabei auf einen HMM-basierten Spracherkenner zurückgegriffen, um zusätzlich zur Onset-Segmentierung eine Binnensegmentierung zu ermöglichen. Zur Evaluation wurden Korpora von Einzelwort- und Mehrwortäußerungen auf Deutsch, Englisch und Niederländisch aufgenommen und manuell zeitlich annotiert. Darüber hinaus wurden vorhandene Korpora semi-spontansprachlicher Daten zeitlich annotiert. In einem ersten Schritt entwickelten wir AUDIOMAX weiter, das auf esmeralda beruhte. Die Ergebnisse für die Einzelwort- und Mehrwortäußerungen zeigten, dass längere Stillezeiten in der zu alinierenden Sprachdatei zu massiven Problemen bei der Alinierungsgenauigkeit des Tools führten. Dies ist auf prinzipielle Probleme der akustischen Modellierung von Stille, die im Wesentlichen Rauschen darstellt, durch ein statistisches Spracherkennungsmodell zurückzuführen. Daher gaben wir die ursprüngliche Architektur von AUDIOMAX auf und entwickelten im zweiten Teil der Projektlaufzeit einen in wesentlichen Teilen alternativen Ansatz zur Implementierung der Voice-Key Funktionalität des Programms, indem wir der forcierten Alinierung eine Voice-Activity-Detection (VAD) vorschalteten, die Sprachon- und -offsets histogramm-basiert detektiert, also Kontraste betrachtet. Des Weiteren trafen wir die Entscheidung, statt esmeralda MAUS zu verwenden, eine auf kontinuierlichen HMMs basierte Spracherkennungsumgebung. Die Evaluation der verschiedenen Korpora mit diesem erweiterten System zeigt prinzipiell eine Alinierungsgenauigkeit des Tools die vergleichbar zu der manueller Segmentierungen ist, wenn man Daten mit guter Aufnahmequalität betrachtet. Insgesamt konnten zwei relevante Einflußfaktoren auf die Alinierungsgenauigkeit der automatischen Segmentierung identifiziert werden: (1) die Aufnahmequalität und (2) die Äußerungsdauer. Mit abnehmender Aufnahmequalität nimmt die Genauigkeit des Tools im Vergleich zu manuellen Segmentierungen ab. Mit zunehmender Länge der Äußerung nimmt die Alinierungsgenauigkeit ab, wobei Alinierungen zum Ende von Äußerungen ungenauer sind als zu Beginn. Basierend auf diesen Beobachtungen bietet das Tool daher neben einer Unterstützung der Verarbeitung größerer Datenmengen von Sprachäußerungen aus psycholinguistischen Experimenten auch Unterstützung für (1) eine schnelle Überprüfbarkeit der Alinierungsergebnisse durch eine Visualisierung auch von Zwischenergebnissen in Praat sowie für (2) die Evaluation der Alinierungsgenauigkeit bei Vorlage einer annotierten Teilstichprobe.

Publications

 
 

Additional Information

Textvergrößerung und Kontrastanpassung