Semantische Videovorhersage (P6)

Antragsteller Professor Dr. Sven Behnke

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing

Förderung Förderung seit 2017

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 313421352

Projektbeschreibung

Die Vorhersage zukünftiger Messungen ist eine Schlüsselfähigkeit intelligenter Systeme. Sie kann auf selbstüberwachte Weise gelernt werden, muss aber geeignete Szenenrepräsentationen entdecken um erfolgreich zu sein. Effektive Mensch-Roboter-Zusammenarbeit benötigt ein System um die menschlichen Aktionen wahrzunehmen und zukünftige Zustände des gemeinsamen Arbeitsraums vorherzusagen. Ziel dieses Projekts ist eine Folge von Repräsentationen des gemeinsamen Arbeitsraums von Mensch und Roboter zu lernen, die immer abstrakter werden und Vorhersagen für immer längere Zeithorizonte erlauben. Da Bewegungssegmentierung bessere Vorhersagen erlaubt, soll das Framework für unüberwachtes Lernen hierarchischer Repräsentationen, das im Projekt "Lernen Hierarchischer Repräsentationen für Antizipative Mensch-Roboter-Kollaboration" der ersten Phase der Forschergruppe entwickelt wurde, erweitert werden, um die Segmentierung der Szene in einzelne Objekte und Personen zu adressieren. Zu diesem Zweck soll eine Netzwerkarchitektur entwickelt werden, welche Szenen als sich kohärent bewegende Segmente modelliert, die sich gegenseitig verdecken. Da die Zukunft häufig mehrere plausible Verläufe hat, soll das Vorhersagesystem erweitert werden, um explizit multimodale Verteilungen zukünftiger Zustände zu berücksichtigen. Zu diesem Zweck sollen semantisch bedeutungstragende latente Variablen erlernt werden, auf welche die multimodale Zukunft konditioniert wird ‒ ohne dass explizite Annotationen erforderlich sind. Um die Repräsentationen auf die Aufgabe der Mensch-Roboter-Zusammenarbeit auszurichten, sollen diese überwacht für semantische Wahrnehmung und semantische Vorhersage multimodaler Zukünfte trainiert werden. Entsprechend den raumzeitlichen Auflösungen sollen in den höheren Ebenen abstraktere semantische Konzepte, wie größere Objekte und längerfristige Aktivitäten, mit längerem Vorhersagehorizont produziert werden. Die erlernten Szenenmodelle und Vorhersagen bilden die Basis für die Arbeit in Projekt P8 "Antizipative Mensch-Roboter-Kollaboration".

DFG-Verfahren Forschungsgruppen

Teilprojekt zu FOR 2535: Anticipating Human Behavior

Servicenavigation

Hauptnavigation

Semantische Videovorhersage (P6)

Zusatzinformationen

Servicenavigation

Hauptnavigation

Semantische Videovorhersage (P6)

Zusatzinformationen

Textvergrößerung und Kontrastanpassung