Inhaltsbasierte Bildsuche in sehr großen, realen Bilddatenbanken mittels stochastischer Lernalgorithmen
Final Report Abstract
Das Ziel dieses Projekts war die Weiterentwicklung und Verbesserung der inhaltsbasierten Bildsuche durch Ausnutzung großer öffentlicher Bilddatenbanken. Eine zentrale Motivation hierfür war und ist u.a. die Verwendung annotierter Bilddatenbanken als visuelles Lexikon. Viele Nutzer sozialer Netzwerke und Fotoportale veröffentlichen nicht nur ihre Fotos online, sondern annotieren diese oft auch mit Metadaten. Eine derartige annotierte Datenmenge lässt sich u.a. als visuelles Lexikon nutzen, indem zunächst für ein Anfragebild eine visuelle Suche in der Bilddatenbank nach ähnlichen Bildern durchgeführt wird. Die gefundenen Bilder wiederum sind häufig mit Metadaten wie Schlagwörtern, Beschreibungen, Geotags o.ä. assoziiert. Diese können entsprechend automatisch analysiert werden und erlauben somit Rückschlüsse auf den Inhalt des Anfragebildes. Es liegt nahe, diese vorhandenen, kostenlosen Bildannotationen zu nutzen, um die allgemeine Bildsuche zu verbessern. In diesem Projekt wurden wichtige Schritte in diese Richtung gemacht, indem Verfahren entwickelt und untersucht wurden, die in der Lage sind, effizient große Bildmengen sowohl nach ihrem visuellen Inhalt als auch anhand ihrer textuellen Annotationen zu indizieren und zu durchsuchen. Ein besonderer Fokus lag vor allem wegen ihrer sehr speichereffizienten Bildrepräsentation auf Themenmodellen, die für große Bildmengen vorteilhaft ist. Dabei wurden verschiedene Modelle und deren Leistung unter Verwendung verschiedener visueller Merkmale untersucht. Neben konventionellen Themenmodellen wurden insbesondere auch hierarchische Modelle untersucht, die mehrere verschiedene visuelle Merkmale unterschiedlicher Art, aber auch unterschiedliche Modalitäten wie Text und visuelle Merkmale miteinander vereinen können. Weiter wurde untersucht, welche Methoden besonders geeignet sind, um visuelle Merkmale zu aussagekräftigen visuellen Vokabularen zusammenzufassen. Hierbei wurden verschiedene Clusteringverfahren und deren Leistung in Zusammenhang mit Themenmodellen erprobt. Aufgrund der Erkenntnis, dass einzelne visuelle Merkmale wenig Information tragen, wurde eine Bündelungsstrategie entwickelt, die mehrere Merkmale zu einer kombinierten Repräsentation zusammenfasst. Diese ist insbesondere vorteilhaft für die Suche nach sehr kleinen Bildregionen. Die Untersuchungen und Entwicklungen hierzu werden in einem nachfolgenden DFG Projekt fortgeführt. Während der gesamten Projektlaufzeit wurde darauf geachtet, dass die Verfahren sowohl von der Laufzeit als auch mit der Menge der zu durchsuchenden Bildern skalieren. Hierbei wurden durch parallele Programmierung beachtliche Beschleunigungen auf Multicore-Maschinen erzielt. Die speichereffiziente Repräsentation der Themenmodelle wurde auf mehreren Datenmengen evaluiert und hat schließlich auch auf einer Datenmenge von über 10 Millionen Bildern Größe ihre Skalierbarkeit bewiesen. Die im Rahmen dieses Projekts erstellten Bildmengen wurden öffentlich zugänglich gemacht.
Publications
-
Multilayer pLSA for Multimodal Image Retrieval. ACM Int. Conf. on Image and Video Retrieval (CIVR), 2009
R. Lienhart, E. Hörster, and S. Romberg
-
Multimodal pLSA on Visual Features and Tags. IEEE Int. Conf. on Multimedia and Expo (ICME), 2009
S. Romberg, E. Hörster, R. Lienhart
-
Leveraging Community Metadata for Multimodal Image Ranking. Multimedia Tools and Applications, Springer Netherlands, pp. 1- 28, 2010
F. Richter, S. Romberg, E. Hörster, and R. Lienhart
-
Multimodal ranking for image search on community databases. ACM Int. Conf. on Multimedia information retrieval (MIR), 2010
F. Richter, S. Romberg, E. Hörster, and R. Lienhart
-
Towards universal visual vocabularies. IEEE Int. Conf. on Multimedia and Expo (ICME), 2010
C.X. Ries, S. Romberg, and R. Lienhart
-
From Local Features to Local Regions. ACM Multimedia 2011, pp. 841-844, 2011
S. Romberg
-
Scalable Logo Recognition in Real-World Images. ACM Int. Conf. on Multimedia Retrieval (ICMR), 2011
S. Romberg, L. Garcia Pueyo, R. Lienhart, and R. van Zwol