Photorealistische Echtzeit-Retusche von bewegten Bekleidungsstücken - Algorithmen und Architektur
Zusammenfassung der Projektergebnisse
Das Ziel dieses Projekts war die Erforschung von robusten Methoden zur monokularen 3D-Poserekonstruktion im Augmented Reality Bereich. Damit die zum eindeutigen Rekonstruieren der Pose verwendeten Marker sicher erkannt werden können, ist die Verarbeitung von hochaufgelöstem Videomaterial zwingend erforderlich. Um die im Augmented Reality Bereich geforderten strengen Performanzanforderungen zu erreichen sollten die rechenintensiven Vorverarbeitungsschritte auf einer schwachprogrammierbaren Architektur in Echtzeit beschleunigt werden. Das weitere Ziel war deswegen die Entwicklung einer Entwurfsumgebung für schwachprogrammierbare Architekturen und die Erforschung von formalen Methoden zum Nachweis der Echtzeitfähigkeit. Die entwickelten Algorithmen zur Poserekonstruktion ermöglichen es unter Verwendung eines mit Markern versehenen Overalls eine 3D Pose aus einem einzelnen 2D Bildern abzuleiten. Hierbei ist eine exakte Positionierung der Marker auf der Körperoberfläche der Person nicht notwendig. Allein basierend auf 2D Nachbarschaftsinformationen aller sichtbaren Marker und der Körpersilhouette kann eine plausible Pose rekonstruiert werden. Hierzu wurde einmalig eine Relevance Vector Machine (RVM) mit einem Referenz-Datenset möglicher Posen trainiert, welche mit einem Motion Capture System mit den dazu passenden 2D Eingabebildern in Korrespondenz gebracht wurden. Für eine robuste Poserekonstruktion wurde eine Kombination aus zwei Pose-Descriptoren angewandt. Zum einen ein HOG Descriptor, welcher die 3D Pose über die Silhouettenkontur der Person beschreibt und zum anderen ein erweiterter Ansatz basierend auf, welcher die Marker untereinander und deren Nachbarschaftskonfiguration beschreibt. Die Kombination dieser beiden Descriptoren liefert einen robusten Pose-Descriptor, welcher mithilfe einer RVM einen Vektor von Gelenkwinkeln für ein vordefiniertes Skelettmodell liefert. Um eine temporale Kohärenz der rekonstruierten Pose zu gewährleisten wird ein Kalman Filter auf die pro Frame rekonstruierten Gelenkwinkel angewandt und die resultierende Bewegung geglättet. Diese Skelettanimation kann verwendet werden, ein Mensch-Modell zu animieren und damit ein virtuelles Kleidungsstück physikalisch korrekt zu simulieren. Der modulare Aufbau der entwickelten Verarbeitungs-Pipeline ermöglichte es, große Teile des Algorithmus auf einer schwachprogrammierbaren FPGA-Architektur zu beschleunigen und damit die geforderten strengen Echtzeitanforderungen zu erreichen. Bestehende Entwurfsumgebungen für Datenflussarchitekturen berücksichtigen weder gemeinsam genutzte Ressourcen noch schwache Programmierbarkeit. Deswegen ist die Performanzverifikation erst nach einem langwierigen Entwurfsprozess mit anschließender Simulation oder Synthese möglich und verhindert eine effiziente Entwurfsraumexploration. Daher wurde eine auf SDF-Graphen basierende Entwurfs- und Prototyping-Umgebungen für schwachprogrammierbare Architekturen mit geteilten Ressourcen entwickelt, die eine funktionale Verifikation und eine formale Performanzverifikation bereits in der Modellierungsphase erlaubt. Dazu wurde die Entwurfs- und Prototyping-Umgebung ADTF so erweitert, dass eine leichte Partitionierung von einem (monolithischen) Software-Modell der Anwendung hin zu einem parallelen Hardware-Modell möglich ist. Dabei wird sowohl die Ausführungssemantik als auch die schwache Programmierbarkeit der Hardware-Architektur berücksichtigt, so dass sich bereits während der Partitionierung eine effiziente Zerlegung finden und funktional verifizieren lässt. Die SDF-Ausführungssemantik dieses Modells erlaubt die formale Analyse einer Anwendung im Bezug auf Performanz und das automatische Bestimmen von Puffergrößen unter Berücksichtigung von geteilten Ressourcen. Dies war mit bestehenden Ansätzen bisher nicht möglich. Dazu wurde auf Methoden der formalen Performanzanalyse zurückgegriffen und neue Verfahren entwickelt, die direkt aus SDF-Graphen Ressourcenzugriffsmuster in Form von Event-Modellen ableiten ohne diese zuvor in HSDF-Graphen transformieren zu müssen. Anhand zweier komplexer Videoverarbeitungsanwendungen aus den Bereichen Augmented Reality und Fahrerassistenz konnte gezeigt werden, dass sich die entwickelten Lösungen zum Entwurf von hochperformanten Anwendungen mit Echtzeitanforderungen eignen. Mit der dabei erreichten Produktivität und den Leistungsdaten hat sich die Verwendung einer schwach programmierbaren Architektur erneut als leistungsfähiger dritter Weg zwischen einer statischen Abbildung von Aktoren mittels Hardware-Synthese und dynamischer Rekonfiguration bewiesen. Die Ergebnisse dieses Projekts haben aber auch gezeigt, dass komplexe Anwendungen bei der exakten SDF-Modellierung zu langen Analyselaufzeiten führen können. Es ist daher notwendig künftig abstraktere Modelle zur Analyse des Zeitverhaltens von solchen Datenflussanwendungen zu finden. Forschungsbedarf besteht auch bei der Modellierung von Zugriffen auf externen DDR-Speicher.
Projektbezogene Publikationen (Auswahl)
-
„Monocular Pose Reconstruction for an Augmented Reality Clothing System", Proc. Vision, Modeling and Visualization (VMV), pp. 339–346, 2011
L. Rogge, T.Neumann, M. Wacker, M. Magnor
-
“Optimizing Performance Analysis for Synchronous Dataflow Graphs with Shared Resources”, Proc. of the Conference on Design, Automation, and Test in Europe, 2012
D. Thiele, R. Ernst
-
"Exploration of FPGA-based Dense Block Matching for Motion Estimation and Stereo Vision on a Single Chip" in Proceedings of IEEE Intelligent Vehicles Symposium (IV), Juni 2013
Henning Sahlbach, Stefan Wonneberger, Thorsten Graf und Rolf Ernst