Detailseite
Videocodierung für die maschinelle Kommunikation basierend auf tiefem Lernen
Antragsteller
Professor Dr.-Ing. André Kaup
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Kommunikationstechnik und -netze, Hochfrequenztechnik und photonische Systeme, Signalverarbeitung und maschinelles Lernen für die Informationstechnik
Kommunikationstechnik und -netze, Hochfrequenztechnik und photonische Systeme, Signalverarbeitung und maschinelles Lernen für die Informationstechnik
Förderung
Förderung von 2019 bis 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 426084215
In diesem Forschungsvorhaben soll die Codierung für maschinelle Kommunikation erforscht werden mit einer starken Fokussierung auf die in letzter Zeit aufgekommenen neuronalen Kompressionsnetzwerke. Dabei werden Netzwerke mit Autoencoderstruktur eingesetzt, welche lernen, das Eingangsbild in eine möglichst komprimierte Darstellung zu transformieren und anschließend auf der Decoderseite wieder zu rekonstruieren. Für das Nachfolgeprojekt sollen nun neuronale Kompressionsnetzwerke, welche dem aktuellen Stand der Technik für die menschliche Wahrnehmung entsprechen, als Startpunkt dienen, um eigene Optimierungen und Architekturen für die Codierung für maschinelle Kommunikation zu erforschen. Dazu wird das Projekt in zwei Phasen unterteilt. In der ersten Phase werden neue Trainingsmethoden für die Intracodierung erforscht, welche den Anwendungsfall, dass neuronale Netzwerke auf das codierte Bild angewendet werden, besser repräsentieren als die üblicherweise verwendeten Qualitätsmetriken. Dabei wird unterschieden zwischen der generellen Optimierung für möglichst viele verschiedene Evaluationsnetzwerke und der spezifischen Optimierung, wenn das Auswertungsnetzwerk vor der Codierung bereits bekannt ist. Die zweite Phase hat zum Ziel, die vorher erforschten Methoden auf die Videocodierung zu übertragen. Dazu ist es allerdings notwendig, geeignete uncodierte und gelabelte Datensätze zu finden oder selbst zu generieren. Des Weiteren soll die Codiereffizienz auch für Szenarien welche Videodaten benötigen, wie z.B. Tracking, erforscht werden.
DFG-Verfahren
Sachbeihilfen