Detailseite
Projekt Druckansicht

Lernbasierte Wavelet-Videocodierung mittels tiefem adaptivem Lifting

Fachliche Zuordnung Kommunikationstechnik und -netze, Hochfrequenztechnik und photonische Systeme, Signalverarbeitung und maschinelles Lernen für die Informationstechnik
Förderung Förderung seit 2021
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 461649014
 
Lernbasierte Methoden der künstlichen Intelligenz werden erfolgreich in unterschiedlichen Bereichen der Bild- und Videosignalverarbeitung eingesetzt. Auch für die verlustbehaftete Bildkompression zeichnet sich bedeutender Fortschritt bezüglich des Raten-Verzerrungsverhaltens im Vergleich zu klassischen Bildkompressionsverfahren ab. Dieser Kennwert bezeichnet das Verhältnis der maximal erreichbaren Kompression unter Einhaltung einer bestimmten Wiedergabequalität. Außerdem basieren klassische Bild- und Videokompressionsverfahren auf dem Prinzip der Ratenadaptivität. Dabei können unterschiedliche Bitraten abhängig von der gewünschten Bildqualität generiert werden. Somit kann beispielsweise dasselbe Verfahren für Netzwerke mit unterschiedlichen Kapazitäten verwendet werden. Aktuelle Ende-zu-Ende trainierte lernbasierte Verfahren zeichnen sich durch eine gute Signaladaptivität aus und erreichen oftmals bessere Kompressionsraten als klassische Verfahren. Ein entscheidender Nachteil liegt jedoch in dem oftmals fehlenden Verständnis der Wirkungsweise neuronaler Netze, da diese meist nicht systematisch, sondern nach dem Trial-and-Error Prinzip konstruiert werden. Gleichzeitig erfordert das Training neuronaler Netze eine hohe Rechenkomplexität, da zum Erreichen verschiedener Bitraten in der Regel mehrere Modelle trainiert werden müssen. Daher soll in diesem Vorhaben ein neues Verfahren zur lernbasierten ratenadaptiven Videokompression unter Verwendung von bewegungskompensiertem Waveletlifting entwickelt werden. Neben Ratenadaptivität wird bei dieser Methode auch Skalierbarkeit in örtlicher und zeitlicher Dimension erreicht und es resultiert somit ein vollständig skalierbarer Bitstrom. Die dabei zugrunde liegende Liftingstruktur bietet den Vorteil, beliebige nichtlineare Operationen zu integrieren, ohne dabei die Rekonstruierbarkeit der Transformation zu gefährden. Somit ist es möglich, auch neuronale Netze innerhalb der Liftingstruktur zu implementieren und dadurch die Effizienz des Waveletliftings zu steigern. Durch das Erlernen der Waveletkoeffizienten kann eine bessere Signaladaptivität und Kompaktierung der Daten erwartet werden. Ein weiterer Vorteil gegenüber Ende-zu-Ende trainierten Verfahren liegt im besseren Verständnis der Wirkungsweise neuronaler Netze durch den bekannten inneren Aufbau der Liftingstruktur. Dadurch lassen sich Auswirkungen einer veränderten Netzwerkarchitektur unmittelbar nachvollziehen und interpretieren. Außerdem zeichnet sich die Liftingstruktur durch eine geringe Komplexität aus, da alle Berechnungen ohne zusätzliche Speicherkapazitäten durchgeführt werden können. Die Anwendung einer solchen tiefen adaptiven Liftingstruktur im Bereich der Videokompression ist neu und stellt einen vielversprechenden Ansatz zur lernbasierten Videokompression dar, der Ratenadaptivität und Interpretierbarkeit in einem Modell vereint.
DFG-Verfahren Sachbeihilfen
Internationaler Bezug Australien
Kooperationspartner Professor Dr. David Taubman
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung