Detailseite
Projekt Druckansicht

Hierarchische Modelle zur Bewegungserkennung und -analyse in Videodaten

Antragstellerin Dr. Hildegard Kühne
Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2016 bis 2020
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 311269674
 
In den letzten Jahren ist die Aufzeichnung und Verbreitung von Videodaten immer alltäglicher geworden. Mit der wachsenden Menge an Videodaten, wächst aber auch der Bedarf für deren automatisierte Erfassung und Verarbeitung. Um der Komplexität dieser Daten gerecht zu werden, muss video-basierte Aktionserkennung von einer einfachen Klassifizierung von vorsegmentierten Clips, weiterentwickeln werden hin zu einer zeitlichen Analyse und Erkennung von Videosequenzen. Das hier vorgeschlagene Projekt beschäftigt sich mit der Erforschung zeitlicher Strukturen für die video-basierte Aktionserkennung mit dem Ziel, komplexe menschlicher Aktivitäten in Videos zu analysieren und zu erkennen. Dabei wird angenommen, dass menschliche Aktivitäten aus Elementen unterschiedlicher Granularität zusammengesetzt sind, von elementaren Muskelbewegungen hin zu komplexen aufeinander aufbauenden Abläufen wie z.B. dem Spielen eines Musikinstruments. Um diese hierarchische Natur menschlicher Aktivitäten auf die videobasierte Erkennung zu übertragen, wird eine Erkennung mit Hilfe zeitlicher Hierarchien vorgeschlagen. Dazu werden menschliche Aktivitäten aus atomaren Elementen zusammengesetzt, die über mehrere Stufen zu größeren Einheiten subsumiert werden. Um dieses abstrakte Modell für die Erkennung realer Handlungssequenzen nutzbar zu machen, wird ein dreiteiliger Ansatz vorgeschlagen: Der erste Teil umfasst die Implementierung eines hierarchischen Erkennungssystems, das menschliche Aktivitäten auf der Basis kleiner, zeitlich atomarer Einheiten analysieren und auswerten kann. Die Entitäten werden dazu über mehrere Zeitebenen miteinander zu einer globalen Darstellung der laufenden Aktivität verkettet. Das System basiert dabei auf generativen Ansätzen, die in diesem Zusammenhang bereits erfolgreich bei ähnlichen Problemen angewendet wurden. Der zweite Teil befasst sich mit dem teilweise überwachten bzw. unüberwachten Training eines solchen Systems. Um unabhängig von zeitaufwendigen Annotationen zu werden, werden halb- und unüberwachte Trainingsverfahren implementiert und evaluiert mit dem Ziel, bestehende Videodaten automatisch zu segmentieren und zu clustern. Die entstandenen Einheiten bilden die Eingabe für eine hierarchische Erkennung sowie die daraus automatisch generierte Grammatik. Drittens werden die Möglichkeiten einer generativen Erkennung über die Zeit im Hinblick auf die Integration von Kontextwissen betrachtet. Die generativen Eigenschaften des vorgeschlagenen Systems bieten Anknüpfungspunkte in Form von Wahrscheinlichkeitsverteilungen und erlauben somit nicht nur die Einbeziehung von Kontextinformation sondern auch die Modellierung z.B. von Objektzuständen über die Zeit. Das Gesamtsystem soll sowohl eine hierarchische Erkennung und Analyse menschlicher Aktivitäten ermöglichen, als auch ein automatisches Training zur Verfügung stellen, das es erlaubt, ein solches Modell auf eine Vielzahl von verschiedenen Datensätzen und Anwendungsbereichen anzuwenden.
DFG-Verfahren Sachbeihilfen
Mitverantwortlich Professor Dr. Jürgen Gall
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung