Pay-as-you-go-Webdatenintegration mit Mashups
Final Report Abstract
Mashups bezeichnen dynamische Web-Anwendungen, die verschiedene Datenquellen und Dienste miteinander kombinieren. Sie stellen damit eine flexible Möglichkeit zur Lösung sogenannter Datenintegrationsaufgaben im Web dar, um z.B. eine gegebene Liste von Produkten um aktuelle Preisangebote verschiedener Verkäufer zu erweitern. Die Erstellung solcher Mashups setzt allerdings (neben Kenntnissen in Web-Programmiersprachen) die Realisierung komplexer Verfahren voraus, damit die gewünschten Daten im Internet gefunden werden und korrekt miteinander verknüpft werden. Bisherige Mashup-Entwicklungswerkzeuge erlauben dabei aus Sicht der Datenintegration lediglich die Realisierung einfacher Anwendungen. So fehlen z.B. Komponenten für das Matching von Datenobjekten, d.h. der automatischen Erkennung, dass zwei Datenobjekte (z.B. Produktangebote) trotz unterschiedlicher Informationen (z.B. unterschiedlicher Titel oder Preis) dennoch das gleiche Realweltobjekt (z.B. dasselbe Produkt) beschreiben. In diesem Forschungsprojekt wurde mit CloudFuice ein Mashup-Framework entwickelt, mit dem Nutzer komplexe Mashup-Anwendungen selbst erstellen können. Durch eine einfache Skriptsprache werden sogenannte Workflows definiert, welche dann in der Cloud ausgeführt werden. Während der Skriptausführung werden u.a. Anfragen an Web-Datenquellen erstellt und gesendet sowie deren Ergebnisse ausgewertet und ggf. verlinkte Informationen hinzugezogen. Skripte und Daten werden in der Web-Tabellenkalkulation von Google Does bearbeitet. Zwischenergebnisse können dabei dargestellt und automatisch aktualisiert werden, damit der Nutzer über den Ausführungsstand informiert bleibt. Als wichtigen Bestandteil von CloudFuice wurden neuartige Verfahren für das sehr schwierige Matching-Problem entwickelt. Ein iteratives Verfahren verbessert dabei die Match-Ergebnisse schrittweise durch eine Analyse bisheriger Match-Ergebnisse. Zusätzlich wurde ein Prototyp entwickelt, der es für den Nutzer sehr einfach macht, Produktangebote semi-automatisch zu gruppieren, so dass Angebote zum gleichen Produkt verglichen werden können.
Publications
- Evaluation of entity resolution approaches on real-world match problems. Proceedings of the VLDB Endowment 3(1), 2010
Köpcke, H.; Thor, A.; Rahm, E.
- From black box to white box at open access journals: Predictive validity of manuscript reviewing and editorial decisions at Atmospheric Chemistry and Physics. Research Evaluation 19(2), 2010
Bornmann, L.; Marx, W.; Schier, H.; Thor, A.; Daniel, H.-D.
- Toward an adaptive String Similarity Measure for Matching Product Offers. GI-Workshop - Informationsintegration in Service-Architekturen, 2010
Thor, A.
- Block-based Load Balancing for Entity Resolution with MapReduce. Proc. of 20th International Conference on Information and Knowledge Management (CIKM), 2011
Kolb, L.; Thor, A.; Rahm, E
- CloudFuice: A flexible Cloud-based Data Integration System. Proc. of 10th International Conference on Web Engineering (ICWE), 2011
Thor, A.; Rahm, E.