Die automatische zeitliche Vermessung sprachlicher Äußerungen im Deutschen, Englischen und Niederländischen: Entwicklung einer Software für experimentelle Psycholinguisten

Antragstellerin Professorin Dr. Eva Belke

Mitantragstellerin Professorin Dr. Antje S. Meyer

Fachliche Zuordnung Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen

Förderung Förderung von 2011 bis 2017

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 210665433

Erstellungsjahr 2017

Zusammenfassung der Projektergebnisse

Ziel des Projektes war die Weiterentwicklung und Evaluierung eines Tools zur automatischen zeitlichen Segmentierung von sprachlichen Äußerungen. In den meisten Sprachproduktionsstudien dienen die Latenz, mit der die Teilnehmer sprachlich auf einen Stimulus reagieren, und/oder die zeitliche Struktur ihrer Äußerungen (Beginn und Ende einzelner Wörter) als abhängige Variablen. Dabei ging es sowohl um die Erfassung des Äußerungsonsets als auch um die Erfassung eines Wortonsets und -offsets innerhalb der Äußerung. Untersuchte Sprachen waren Deutsch, Englisch und Niederländisch. In Abgrenzung zu anderen Vermessungstools wurde dabei auf einen HMM-basierten Spracherkenner zurückgegriffen, um zusätzlich zur Onset-Segmentierung eine Binnensegmentierung zu ermöglichen. Zur Evaluation wurden Korpora von Einzelwort- und Mehrwortäußerungen auf Deutsch, Englisch und Niederländisch aufgenommen und manuell zeitlich annotiert. Darüber hinaus wurden vorhandene Korpora semi-spontansprachlicher Daten zeitlich annotiert. In einem ersten Schritt entwickelten wir AUDIOMAX weiter, das auf esmeralda beruhte. Die Ergebnisse für die Einzelwort- und Mehrwortäußerungen zeigten, dass längere Stillezeiten in der zu alinierenden Sprachdatei zu massiven Problemen bei der Alinierungsgenauigkeit des Tools führten. Dies ist auf prinzipielle Probleme der akustischen Modellierung von Stille, die im Wesentlichen Rauschen darstellt, durch ein statistisches Spracherkennungsmodell zurückzuführen. Daher gaben wir die ursprüngliche Architektur von AUDIOMAX auf und entwickelten im zweiten Teil der Projektlaufzeit einen in wesentlichen Teilen alternativen Ansatz zur Implementierung der Voice-Key Funktionalität des Programms, indem wir der forcierten Alinierung eine Voice-Activity-Detection (VAD) vorschalteten, die Sprachon- und -offsets histogramm-basiert detektiert, also Kontraste betrachtet. Des Weiteren trafen wir die Entscheidung, statt esmeralda MAUS zu verwenden, eine auf kontinuierlichen HMMs basierte Spracherkennungsumgebung. Die Evaluation der verschiedenen Korpora mit diesem erweiterten System zeigt prinzipiell eine Alinierungsgenauigkeit des Tools die vergleichbar zu der manueller Segmentierungen ist, wenn man Daten mit guter Aufnahmequalität betrachtet. Insgesamt konnten zwei relevante Einflußfaktoren auf die Alinierungsgenauigkeit der automatischen Segmentierung identifiziert werden: (1) die Aufnahmequalität und (2) die Äußerungsdauer. Mit abnehmender Aufnahmequalität nimmt die Genauigkeit des Tools im Vergleich zu manuellen Segmentierungen ab. Mit zunehmender Länge der Äußerung nimmt die Alinierungsgenauigkeit ab, wobei Alinierungen zum Ende von Äußerungen ungenauer sind als zu Beginn. Basierend auf diesen Beobachtungen bietet das Tool daher neben einer Unterstützung der Verarbeitung größerer Datenmengen von Sprachäußerungen aus psycholinguistischen Experimenten auch Unterstützung für (1) eine schnelle Überprüfbarkeit der Alinierungsergebnisse durch eine Visualisierung auch von Zwischenergebnissen in Praat sowie für (2) die Evaluation der Alinierungsgenauigkeit bei Vorlage einer annotierten Teilstichprobe.

Projektbezogene Publikationen (Auswahl)

(2018) AlignTool: The automatic temporal alignment of spoken utterances in German, Dutch, and British English for psycholinguistic purposes. Behavior research methods 50 (2) 466–489
Schillingmann, L., Ernst, J., Keite, V., Wrede, B., Meyer, A. S., & Belke, E.
International Workshop on Language Production 2014, Geneva: AUDIOMAX: A software using an automatic speech recognition system for fast and accurate temporal analyses of word onsets in spoken utterances
D. Katzberg, E. Belke, B. Wrede, J. Ernst, Th. Berwe, A.S. Meyer

Servicenavigation

Hauptnavigation

Die automatische zeitliche Vermessung sprachlicher Äußerungen im Deutschen, Englischen und Niederländischen: Entwicklung einer Software für experimentelle Psycholinguisten

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Servicenavigation

Hauptnavigation

Die automatische zeitliche Vermessung sprachlicher Äußerungen im Deutschen, Englischen und Niederländischen: Entwicklung einer Software für experimentelle Psycholinguisten

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Textvergrößerung und Kontrastanpassung