Quality Attributes and Overall Quality of Transmitted Speech
Acoustics
Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing
Final Report Abstract
Die wahrgenommene Gesamtqualität eines Sprachübertragungssystems ist für die Netzwerkbetreiber einer der wichtigsten „Key Quality Indicator (KQI)“. Jedoch gibt dieser einzelne Indikator nur wenig Aufschluss über den eigentlichen Grund einer Qualitätsminderung des Systems. Dieses Projekt beschäftigte sich daher mit der diagnostischen Qualitätsanalyse übertragener Sprache. Dazu wird die durch einen „Mean Opinion Score (MOS)“ beschriebene Gesamtqualität in perzeptive Qualitätsdimensionen aufgeschlüsselt. In früheren Arbeiten, auf welche dieses Projekt unter anderem aufbaute, konnte bereits gezeigt werden, dass Sprachqualität auf Basis der folgenden vier perzeptiven Qualitätsdimensionen modelliert werden kann: „Noisiness“, „Coloration“, „Discontinuity“ und „Suboptimal Loudness“. Diese Dimensionen werden subjektiv in auditiven Hörexperimenten von Probanden bewertet, können aber auch mittels eines instrumentellen Modells geschätzt werden. Ziel einer solchermaßen ursachendifferenzierten Qualitätsanalyse ist es, verminderte Sprachqualität direkt auf technische Ursachen in Netzwerken und Endgeräten zurückführen zu können (Root-Cause Analyse). Dominierende Forschungsfragen dieses Projektes waren die instrumentelle und robuste Schätzung der perzeptiven Qualitätsdimensionen und der technischen Ursachen, sowie die Bestimmung eines Zusammenhangs zwischen Qualitätsdimensionen, technischen Ursachen und Gesamtqualität. In diesem Kontext hervorzuheben sind die im Folgenden dargestellten erzielten Ergebnisse: Im Rahmen der referenzbasierten Schätzung der Qualitätsdimensionen liegt durch das Projekt insbesondere für die Dimension „Noisiness“ ein neuer robuster Schätzer vor. Durch ein signalamplitudenunabhängiges Verfahren befindet sich die Genauigkeit der Schätzung mit einem maximalen „epsilon-insensitive Root Mean Square Error“ (RMSE*) von 0,22 im von der International Telecommunication Union (ITU-T) geforderten Bereich. Zusätzlich liegen durch das Projekt ebenfalls vielversprechende Ergebnisse für die referenzfreie Schätzung aller vier Qualitätsdimensionen sowie der Gesamtqualität vor. Durch die Wahl eines Ansatzes mittels neuronaler Netze bewegt sich die Genauigkeit für die vorliegenden Datenbanken bereits im von der ITU-T geforderten Bereich. Als technische Ursachen wurden im beschriebenen Projekt hauptsächlich Paketverluste und Sprachkodierungseffekte betrachtet, die für die Transferpartner als besonders relevant erachtet wurden. Durch einen im Rahmen des Projektes entwickelten Algorithmus können Paketverluste mit einer Trefferquote von 93 % detektiert werden, drei Bitratenklassen des AMR-WB-Codec im Gegenzug mit 95 %. Darüber hinaus ist ein Gesamtmodell mit aufeinander abgestimmten Detektoren verfügbar, sodass die Einzelstörungen verlässlich voneinander separiert werden können. Mit diesem Gesamtmodell ist es ebenfalls möglich, den Anteil der jeweiligen technischen Ursache am Gesamtqualitätsverlust abzuschätzen. Diese und alle weiteren signifikanten Ergebnisse des Projektes sind auf internationalen Konferenzen mit wissenschaftlicher Qualitätssicherung publiziert. Sofern relevant liegen die Ergebnisse ebenfalls den Projektpartnern und der ITU-T als Beiträge zur Standardisierung von P.AMD und P.TCA vor. Darüber hinaus ist ein Teil der Ergebnisse als Implementierung frei im Internet verfügbar.
Publications
- "Modeling the overall quality of experience on the basis of underlying quality dimensions," in Proc. QoMEX 2017, Erfurt, 2017
F. Köster, G. Mittag, S. Möller
(See online at https://doi.org/10.1109/QoMEX.2017.7965647) - "Diagnostic and Summative Approach for Predicting Speech Communication Quality in a Super-Wideband Context," in Proc. ITG 2018, Oldenburg, 2018
S. Möller, T. Hübschen, G. Mittag, G. Schmidt
- “Bitrate and Tandem Detection for the AMR-WB Codec with Application to Network Testing,” in Proc. EUSIPCO 2018, Rome, 2018
T. Hübschen, G. Schmidt
(See online at https://doi.org/10.23919/EUSIPCO.2018.8553360) - “Detecting Packet-Loss Concealment Using Formant Features and Decision Tree Learning,” in Proc. Interspeech 2018, Hyderabad, 2018
G. Mittag, S. Möller
(See online at https://doi.org/10.21437/Interspeech.2018-1098) - “Signal-based Root Cause Analysis of Quality Impairments in Speech Communication Networks,” in Proc. ITG 2018, Oldenburg, 2018
T. Hübschen, G. Mittag, S. Möller, G. Schmidt
- "Non-intrusive Speech Quality Assessment for Super-wideband Speech Communication Networks," in Proc. ICASSP 2019, Brighton, 2019
G. Mittag, S. Möller
(See online at https://doi.org/10.1109/ICASSP.2019.8683770) - "Semantic Labeling of Quality Impairments in Speech Spectrograms with Deep Convolutional Networks," in Proc. QoMEX 2019, Berlin, 2019
G. Mittag, S. Möller
(See online at https://doi.org/10.1109/QoMEX.2019.8743265) - “Quality Estimation of Noisy Speech Using Spectral Entropy Distance,” in Proc. ICT 2019, Hanoi, 2019
G. Mittag, S. Möller
(See online at https://doi.org/10.1109/ICT.2019.8798783) - “Zusammenhang zwischen perzeptiven Dimensionen und Störungsursachen bei super-breitbandiger Sprachübertragung,” in Proc. DAGA 2019, Rostock, 2019
S. Möller, T. Hübschen, G. Mittag, G. Schmidt