Detailseite
Projekt Druckansicht

Episodische Semantische Szenenanalyse

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2017 bis 2022
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 381855581
 
Erstellungsjahr 2022

Zusammenfassung der Projektergebnisse

In diesem Projekt untersuchten wir die Darstellung und das Verständnis von alltäglichen Szenen und deren Veränderung im Laufe der Zeit. Szenegraphen stellen eine Szene bestehend aus Instanzen von Objekten als Knoten und ihre Beziehungen zueinander als gerichtete Kanten dar. Um die Veränderung von Szenengraphen im Laufe der Zeit zu untersuchen, stellen wir einen neuen 3D-Szenengraphendatensatz (3DSSG) von Innenraumen mit annotierten Beziehungen zwischen den Objekten vor, der über verschiedene Zeiträume wiederholte Scans der Szenen enthält. Abgeleitet davon formulieren wir die Aufgabe der domänenagnostische Szenenabfrage in sich verändernden Umgebungen. Durch das Zuordnen einzelner Teile aus zeitlich verschiedenen Aufnahmen einer Szene zueinander, können wir Veränderungen zwischen den zwei Aufnahmen derselben Szene erkennen; dies kann Maschinen dabei helfen aus der Beobachtung von menschlichen Interaktionen mit der Szene zu lernen. Wir schlagen eine Methode basierend auf neuronalen Graphennetzen zur Erstellung eines Szenengraphen aus einer segmentierten Punktwolke vor, bei der wir gleichzeitig die semantische Klasse der Objektknoten bestimmen sowie die Beziehungen zwischen den Entitäten in der Szene ableiten um die Kanten des Graphen zu bilden. Darüber hinaus untersuchen wir das Potenzial generativer Methoden zum Erlernen plausibler Konstellationen von Objekten in einer Szene, um aussagekräftige Vorhersagen über das gemeinsame Auftreten von Objekten und die Beziehungen zwischen ihnen zu erhalten. Daher haben wir Methoden entwickelt, um 3D-Szenen und Bilder aus einer erweiterten Szenengraphendarstellung mit kodierten neuronalen Merkmalen für Ob jektform und -erscheinung zu erzeugen und zu manipulieren. Dies ermöglicht es uns, eine Szene auf abstrakter Ebene virtuell zu verändern und uns das Ergebnis realistisch vorzustellen.

Projektbezogene Publikationen (Auswahl)

  • Object-driven multi-layer scene decomposition from a single image. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5369–5378, 2019
    Helisa Dhamo, Nassir Navab, and Federico Tombari
    (Siehe online unter https://doi.org/10.1109/ICCV.2019.00547)
  • Learning 3d semantic scene graphs from 3d indoor reconstructions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3961–3970, 2020
    Johanna Wald, Helisa Dhamo, Nassir Navab, and Federico Tombari
    (Siehe online unter https://doi.org/10.1109/CVPR42600.2020.00402)
  • Semantic image manipulation using scene graphs. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5213–5222, 2020
    Helisa Dhamo, Azade Farshad, Iro Laina, Nassir Navab, Gregory D Hager, Federico Tombari, and Christian Rupprecht
    (Siehe online unter https://doi.org/10.1109/CVPR42600.2020.00526)
  • Graph-to-3d: End-to-end generation and manipulation of 3d scenes using scene graphs. In International Conference on Computer Vision, 2021
    Helisa Dhamo, Fabian Manhardt, Nassir Navab, and Federico Tombari
    (Siehe online unter https://doi.org/10.1109/ICCV48922.2021.01604)
  • Migs: Meta image generation from scene graphs. In British Machine Vision Conference, 2021
    Azade Farshad, Sabrina Musatian, Helisa Dhamo, and Nassir Navab
  • Unconditional scene graph generation. In IEEE International Conference on Computer Vision, 2021
    Sarthak Garg, Helisa Dhamo, Azade Farshad, Sabrina Musatian, Nassir Navab, and Federico Tombari
    (Siehe online unter https://doi.org/10.1109/ICCV48922.2021.01605)
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung