Superresolution Videos and Optical Flow based on Combinatorial and Variational Optimization
Final Report Abstract
In diesem Projekt konnten wir zeigen, dass sich Bewegungsschätzung zwischen Bildern vollständig als Lernproblem formulieren lässt und sich damit optischer Fluss erstklassiger Qualität mit interaktiven Bildwiederholraten berechnen lässt. Wir konnten zeigen, dass sich ein entsprechendes tiefes Netzwerk vollständig anhand von gerenderten Bildsequenzen trainieren lässt und dennoch sehr gute Ergebnisse auch auf realen Bildern erzielt. Der Lernansatz hat Vorteile gegenüber klassischen Verfahren insbesondere in Bildbereichen mit wenig Textur sowie im Falle starker Verdeckungen. Wir untersuchten im Rahmen des Projekts verschiedene Netzwerkarchitekturen, die unterschiedliche Vor- und Nachteile aufweisen und für zukünftige Forschungsvorhaben ein flexibles Spektrum an Möglichkeiten bieten. Einige Netzwerkvarianten können optischen Fluss mit 140 Bildern pro Sekunde auf einer einzelnen Grafikkarte verarbeiten, andere erreichen nur 30 Bilder pro Sekunde, sind jedoch wesentlich genauer. Das im Rahmen dieses Projekts entwickelte FlowNet und das davon abgeleitete DispNet zur Berechnung von Disparitätskarten in Stereobildern stellen eine erhebliche Erweiterung des Stands der Wissenschaft dar. Ihre Einsatzmöglichkeiten sind vielseitig und ermöglichen neue Ansätze in der Videoverarbeitung mithilfe von Deep Learning. Davon werden sehr wahrscheinlich auch die Robotik und Fahrerassistenzsysteme profitieren. Der FlowNet-Ansatz wurde von uns außerdem zu einem tiefen Netzwerk für Video-Superresolution ausgebaut, mit dem wir aktuell die besten publizierten Ergebnisse auf diesem Gebiet erreichen.
Publications
- FlowNet: Learning Optical Flow with Convolutional Networks, IEEE International Conference on Computer Vision (ICCV), 2015
Alexey Dosovitskiy, Philipp Fischer, Eddy Ilg, Philip Häusser, Caner Hazırbaş, Vladimir Golkov, Patrick van der Smagt, Daniel Cremers, Thomas Brox
(See online at https://dx.doi.org/10.1109/ICCV.2015.316) - A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation, IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), 2016
Nikolaus Mayer, Eddy Ilg, Philip Häusser, Philipp Fischer, Daniel Cremers, Alexey Dosovitskiy, Thomas Brox
(See online at https://dx.doi.org/10.1109/CVPR.2016.438) - "FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 1647-1655
Eddy Ilg, Nikolaus Mayer, Tonmoy Saikia, Margret Keuper, Alexey Dosovitskiy, Thomas Brox
(See online at https://doi.org/10.1109/CVPR.2017.179) - (2017): End-to-End Learning of Video Super-Resolution with Motion Compensation. In: Volker Roth und Thomas Vetter (Hg.): Pattern Recognition, Bd. 10496. Cham: Springer International Publishing (Lecture Notes in Computer Science), S. 203–214
Osama Makansi, Eddy Ilg, Thomas Brox
(See online at https://doi.org/10.1007/978-3-319-66709-6_17)