Project Details
Bandbreitenerweiterung von Telefonsprachdatenbanken zum Training breitbandiger automatischer Spracherkenner
Applicant
Professor Dr.-Ing. Tim Fingscheidt
Subject Area
Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing
Electronic Semiconductors, Components and Circuits, Integrated Systems, Sensor Technology, Theoretical Electrical Engineering
Electronic Semiconductors, Components and Circuits, Integrated Systems, Sensor Technology, Theoretical Electrical Engineering
Term
from 2012 to 2015
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 215637315
In der vorangegangenen Einzelförderung ist es mittels eines erweiterten Bayes’schen Ansatzes gelungen, schmalbandige Telefonsprache (Bandbreite 300 ... 3400 Hz) auf Breitbandsprache (50 ... 7000 Hz) unter Nutzung phonetischer Annotationen künstlich zu erweitern. Nutzt man die Annotationen im Trainingsprozess, sind gute Qualitätsverbesserungen erzielt worden. Mittlerweile wird dieses Verfahren in drei Industrieprojekten für Freisprechsysteme weiterentwickelt. Nutzt man Annotationen jedoch auch im Zuge der eigentlichen Bandbreitenerweiterung (Test), dann wird eine außerordentlich hohe Sprachqualität erzielt. Solche im Offline-Modus erzeugten breitbandigen Sprachdaten sollen im geplanten Vorhaben im Training breitbandiger Spracherkenner genutzt werden: Zum einen sollen sie zur Erhöhung der Erkennungsrobustheit den bereits vorhandenen breitbandigen Trainings-Sprachdaten hinzugefügt werden. Zum anderen könnten auch neue Sprachen schneller erschlossen werden, da Telefonsprachdaten vorhanden sind oder zumindest aufwandsarm akquiriert werden können. Im Zuge des Vorhabens erhielte der wissenschaftliche Partner Zugang zu wertvollen Sprachdatensammlungen, mittels denen ein Proof of Concept des wissenschaftlichen Ansatzes überhaupt nur möglich ist. Algorithmische Weiterentwicklungen werden statt auf Sprachqualität eher auf die geeignete Erzeugung einer geeigneten Variabilität in den bandbreitenerweiterten Sprachdaten abzielen müssen, damit verbesserte Erkennungsergebnisse erzielt werden.
DFG Programme
Research Grants (Transfer Project)
Participating Institution
European Media Lab GmbH