Detailseite
Lernen tiefer Sprachrepräsentationen für die Phonetikforschung
Antragstellerinnen / Antragsteller
Professor Dr.-Ing. Reinhold Häb-Umbach; Professorin Dr. Petra Wagner
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Angewandte Sprachwissenschaften, Computerlinguistik
Kommunikationstechnik und -netze, Hochfrequenztechnik und photonische Systeme, Signalverarbeitung und maschinelles Lernen für die Informationstechnik
Angewandte Sprachwissenschaften, Computerlinguistik
Kommunikationstechnik und -netze, Hochfrequenztechnik und photonische Systeme, Signalverarbeitung und maschinelles Lernen für die Informationstechnik
Förderung
Förderung seit 2021
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 446378607
Neben dem linguistischen Inhalt enthält ein Sprachsignal weitere, extra/paralinguistische Informationen, wie beispielsweise Geschlecht, emotionaler Zustand, Alter, sozialer Status oder die Identität von Sprecherinnen oder Sprechern. Diese Charakteristika sind jedoch in komplexen, nicht unmittelbar transparenten Variationen des Sprachsignals verborgen und der phonetischen Forschung nur schwer zugänglich. Mit der Verbesserung, die tiefe neuronale Netze, insbesondere tiefe generative Modelle, im Bereich der Sprachsynthese und der Sprecherkonversion erzielt haben, erwarten wir, dass diese Verfahren auch zu einem nützlichen Werkzeug für die Phonetikforschung werden können.Das übergreifende Ziel dieses Vorhabens ist daher, das Potenzial tiefer generativer Modelle als Werkzeug für die phonetische Grundlagenforschung auszuloten und ggf. zu etablieren. Dabei beschränken wir uns auf die gezielte Modifikation von existierenden Sprachbeispielen, um Signale mit gewünschten dedizierten Eigenschaften zu erzeugen, und betrachten nicht die Erzeugung von Sprachstimuli auf der Basis von Text. Es sollen tiefe generative Modelle entwickelt werden, die latente Variablen aus einem Sprachsignal berechnen, welche kompakt und informativ über das zugrundeliegende Sprachsignal sind, und welche verschiedene Ursachen von Variationen im Signal in verschiedenen Dimensionen der latenten Repräsentation enkodieren. Weiterhin sollen sie eine dedizierte Manipulation des Sprachsignals entlang phonetisch plausibler Dimensionen erlauben und somit einer menschlichen Interpretation zugänglich sein. Damit soll der Phonetik ein Werkzeug in die Hand gegeben werden, welches ihr Kontrolle sowohl über grundsätzliche akustisch-phonetische Eigenschaften als auch über abstrakte Konzepte ermöglicht. Als Beispiele für solche abstrakten Konzepte werden hier die Entflechtung von vom Sprecher und vom linguistischen Inhalt hervorgerufenen Variationen im Signal sowie die Extraktion von von einem Dialekt hervorgerufenen Variationen im Signal betrachtet. Da die zu entwickelnden Verfahren datengetrieben sind, können sie jedoch auch auf andere Konzepte angewandt werden, wenn entsprechende Trainingsdaten vorhanden sind. Die Qualität und Nützlichkeit der entwickelten Methoden werden sowohl mit maschinellen Klassifikationstests als auch mit menschlichen Perzeptionsstudien bewertet, sowie durch Signalanalyse durch phonetische Expertinnen oder Experten.
DFG-Verfahren
Sachbeihilfen