Detailseite
Breitbandige akustische Modellierung von Sprache
Antragsteller
Professor Dr. Peter Birkholz
Fachliche Zuordnung
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2019 bis 2023
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 418848246
Bisher wurden die akustischen Eigenschaften von Sprache und Gesang hauptsächlich bei niedrigen Frequenzen von bis zu 5 kHz untersucht, während höhere Frequenzen im Wesentlichen als irrelevant betrachtet wurden. Neuerdings gibt es jedoch zunehmend Belege dafür, dass die höheren Frequenzanteile eine wichtigere Rolle spielen als man bisher dachte, und zum Beispiel Träger paralinguistischer Informationen sind. Das aktuelle Wissen über die höheren Frequenzanteile, ihre richtungsabhängige Abstrahlung, sowie ihre Beziehung zur Artikulation ist eher begrenzt, unter anderem, weil ihre Untersuchung aufwändig ist. Ein potentiell geeigneter Ansatz zur Untersuchung dieser Fragen basiert auf der 3D-akustischen Simulation des Vokaltrakts. Jedoch sind gegenwärtige 3D-Simulationsmethoden entweder extrem rechenaufwändig (z.B. die Finite-Elemente-Methode) oder benötigen stark vereinfachte Geometrien des Vokaltrakt (die multimodale Methode). Wir schlagen daher hier eine hybride Methode für die 3D-akustische Simulation des Vokaltrakts vor, die den ganzen hörbaren Frequenzbereich abdeckt und sowohl schnell als auch physikalisch exakt ist. Die Grundidee besteht in der Kombination der analytischen multimodalen Methode mit einem 2D-Finite-Elemente-Ansatz für die Berechnung der modalen Basisfunktionen. Dieses hybride akustische Modell wird im Rahmen des artikulatorischen Synthesizers VocalTractLab implementiert und optimiert, um in Verbindung mit einem 3D-Vokaltraktmodell die physikalisch exakte, breitbandige Synthese von Sprachäußerungen zu ermöglichen. Die vorgeschlagene Simulationsmethode wird objektiv mit breitbandigen akustischen Messungen an 3D-gedruckten Vokaltraktmodellen sowie subjektiv in einem Perzeptionstext mit menschlichen Hörern evaluiert.
DFG-Verfahren
Sachbeihilfen
Internationaler Bezug
Belgien, Frankreich
Kooperationspartnerinnen / Kooperationspartner
Professor Jean Baptiste Doc; Dr. Simon Felix; Dr. Angélique Remacle