GeRDI: Generic Research Data Infrastructure
Final Report Abstract
Unter enger Einbindung unterschiedlicher Fachgemeinschaften wurde während der dreijährigen Projektphase von den antragstellenden Projektpartnern eine Generic Research Data Infrastructure (GeRDI ) pilotiert. 36 Aus- gangspunkt für die Entwicklungen waren typische Forschungsfragen der im Projekt eingebundenen Fach- Communities anhand derer bestehende Praktiken im Umgang mit Forschungsdaten betrachtet und analysiert wurden (78 Interviews und Feedbacktreffen mit Vertreter*innen der Fachgemeinschaften). Sechs generische und 15 disziplinspezifische Anwendungsfälle bilden die Grundlage für die Anforderungsspezifikation mit 7 Services: Harvest – Search – Bookmark – Store – Process – Analyse – Submit. Diese Services wurden in einer Microservice-Architektur umgesetzt. Sie erlaubt die Entwicklunge generischer Services und die Anbindung disziplinspezifischer Dienste über standardisierte Schnittstellen. Als interdis- ziplinäre Forschungsdateninfrastruktur erlaubt GeRDI so den Forschenden, weitestgehend in der gewohnten Arbeitsumgebung zu bleiben. Mit dem Ansatz der Microservice-Architektur ist der Pilot zudem kompatibel zu anderen bedeutenden europäischen Projekten (z.B. EOSC). Der GeRDI-Pilot verknüpft Teilbestände unterschiedlicher disziplinärer Forschungsdatenrepositorien in der Form, dass Metadaten der dort gelagerten Forschungsdaten abgerufen, normalisiert und über einen zentralen GeRDI-Suchindex für eine disziplinübergreifende Recherche nach Forschungsdaten bereitgestellt werden (21 Forschungsdatenrepositorien, 668.000 Metadatensätze (ohne Zenodo)). Suchergebnisse können anhand von mehreren Facetten eingegrenzt werden. Darüber hinaus bietet der GeRDI-Pilot weitere Services: Die verknüpften Datensätze lassen sich speichern (wenn dies vom Datenanbieter unterstützt wird) oder über angeschlossene Prozess- und Analyse-Services (z.B. Jupyter Notebook) aufbereiten und verarbeiten. Neue Datensätze können in ein angeschlossenes Repositorium hochgeladen werden. Mit der Entscheidung für Microservice-Architektur wurden die Weichen für eine nachhaltige, breite Nutzung des GeRDI-Systems gelegt. Eine sehr genaue Zielgruppendefinition verdeutlicht, dass bedarfsgerecht unter- schiedliche Trainingssätze aufzubereiten sind, um das GeRDI-System erfolgreich in die Anwendung zu über- führen. Als Betriebsmodell wurde ein Konzept mit externen Schnittstellen entworfen. Während bestimmte GeRDI-Services, wie zum Beispiel der zentrale Such-Index, von einem Konsortium betrieben werden kann, erlauben andere Services einen föderierten Betrieb durch dritte Anwendereinrichtungen. Innerhalb des GeRDI Projektes werden die Open Science Prinzipien verfolgt. Die Software wird Open Source zur Verfügung gestellt und Publikationen werden Open Access publiziert. Abweichungen von der ursprünglichen Projektplanung - Folgende Themenfelder wurden nicht verfolgt: ● Berücksichtigung von Datenmanagementplänen ● Datensicherheit und Datensicherung ● Zertifizierung von Pilotzentren mit einem Datensiegel ● Erarbeitung eines Servicemodells für die Datenkuration ● Verknüpfung von Metadaten mit externen Fach- und Forschungsinformationen ● Integration der GeRDI-Software in Nutzerumgebungen/bestehende Repositorien ● Untersuchung des ökonomischen Nutzens für das wissenschaftliche Gesamtsystem in Deutschland Die Gründe für diese Abweichungen liegen in den Ergebnissen der Anforderungsanalyse begründet sowie in der Tatsache, dass über GeRDI nur Metadaten, jedoch keine Forschungsdaten verwaltet werden. Der letzte Punkt wurde durch die im zweiten Projektjahr von der GWK empfohlene Finanzierung der Nationalen Forschungsdateninfrastruktur (NFDI) belegt.
Publications
- (2017). Challenges in Creating a Sustainable Generic Research Data Infrastructure. In: Softwaretechnik-Trends. 37(2), S. 74-77
Grunzke, R., Adolph, T., Biardzki, C., Bode, A., Borst, T., Bungartz, H.-J., Busch, A., Frank, A., Grimm, C., Hasselbring, W., Kazakova, A., Latif, A., Limani, F., Neumann, M., Tavares de Sousa, N., Tendel, J., Thomsen, I., Tochtermann, K., Müller-Pfefferkorn, R., Nagel, W. E.
- (2018). Skalierbare datenflussbasierte Architektur. In: OBJEKTspektrum. 2018 (5), S. 28-33
Tavares de Sousa, N., Hasselbring, W.
- (2018): HOW FAIR can you get? Image Retrieval as a Use Case to calculate FAIR metrics. In: IEEE 14th International Conference on e-Science, 2018. Amsterdam, 29.10.- 01.11.2018
Weber, T., Kranzlmüller, D.
(See online at https://doi.org/10.1109/eScience.2018.00027) - (2018): Integrated search and analysis of multidisciplinary marine data with GeRDI. In: International Journal of Earth Sciences 59(1): 99-101. EBSCO Publishing. International Conference on Marine Data and Information Systems (IMDIS 2018), 5-7 November, 2018, Barcelona, Spain
Thomsen, I., Hasselbring, W., Schmidt, J. und Quaas, M.
- 2018. Designing a Generic Research Data Infrastructure Architecture with Continuous Software Engineering. In: 3rd Workshop on Continuous Software Engineering. Ulm, 06.03.2018. CEUR Workshop Proceedings Vol. 2066, S. 85-88
Tavares de Sousa, N., Hasselbring, W., Weber, T., Kranzlmüller, D.
- (2019): A Generic Research Data Infrastructure for Long Tail Research Data Management. In: Data Science Journal
Latif A., Limani F., Tochtermann K.
(See online at https://doi.org/10.5334/dsj-2019-017)