Digitalisierung / Erschließung von Objekten: Ein prozessoptimiertes Standardverfahren zur Erschließung von digitalen Herbarbelegen
Softwaretechnik und Programmiersprachen
Zusammenfassung der Projektergebnisse
Das Projekt StanDAP-Herb (Standard Data Acquisition Process of digital Herbaria) befasste sich mit der Optimierung von Arbeits- und Informationsflüssen zur automatischen und semi-automatischen Inhaltserschließung von Herbarbelegen. Ziel ist dabei, den durch die immer effektiveren Digitalisierungsverfahren entstehenden Rückstand bei der Klassifikation von Belegen und der Erfassung der Etiketteninformation so weit wie möglich aufzuholen. In einer ersten Projektphase wurden verfügbare fach-spezifische und fach-übergreifende Dienste und Softwaresysteme zur automatisierten Inhaltserschließung recherchiert und bezüglich ihrer Leistungsfähigkeit und Integrierbarkeit in Workflowsysteme analysiert. Ein besonderer Fokus lag dabei auf dem Vergleich verschiedener OCR-Verfahren, die für die Vorverarbeitung für Text-Mining Algorithmen angewendet werden. Das Testen der verschiedenen Komponenten wurde auf Basis des am Fraunhofer IOSB betriebenen WebGenesis Workflow Systems durchgeführt, über das auch das Management der zu verarbeitenden Bilddateien abgewickelt wurde. Parallel zu der Analyse der verschiedenen Erschließungsmethoden wurde ein Standardworkflow für die (semi-) automatisierte Verarbeitung von Herbarbildern definiert und als BPMN Model formal spezifiziert. Wertvolle Beiträge zu verfügbaren Diensten und dem generellen Informationsfluss lieferte eine projektbegleitende Arbeitsgruppe mit Kuratoren aus dem deutschsprachigen Raum. Sämtliche Rechercheergebnisse sowie das formale Modell sind über das Projekt-Wiki System zugänglich. Kriterien bei der Wahl einer Softwareplattform für die Implementierung eines integrierten Erschließungs-Workflows waren i) die freie Verfügbarkeit, ii) einfache Erweiterbarkeit mit externen Diensten und iii) die Verankerung in der Entwicklercommunity der Biodiversitätsinformatik. Auf Basis dieser Kriterien wurde die Open Source Plattform OpenRefine gewählt, die bereits breit für das Management von Biodiversitätsdaten eingesetzt wird und mit externen Diensten erweitert werden kann. Für die StanDAP-Herb Plattform wurden Dienste zur Extraktion von wissenschaftlichen Namen, Personen und Datumsangaben sowie Ortsangaben und Geo-koordinaten integriert. Eine Anbindung an das Sammlungssystem JACQ, mit dem derzeit Daten aus 43 Herbarien gepflegt werden wurde beispielhaft auf Basis des Datenstandards ABCD realisiert und kann leicht auf andere Sammlungssysteme ausgedehnt werden. Geplant ist zum Beispiel der Einsatz am Royal Botanic Garden Edinburgh (Sammlungssystem BGBase). Sämtliche im Projekt entwickelten Softwarekomponenten sind frei verfügbar. Der BGBM hat die StanDAP-Herb Plattform in die institutionellen Datenmanagement-Prozesse eingebunden, erweitert das System durch neu verfügbare Dienste und entwickelt die Software aktiv weiter. Angestrebt wird ebenfalls eine Stärkung der internationalen Kooperation auf dem Gebiet der automatisierten Inhaltserschließung.
Projektbezogene Publikationen (Auswahl)
- (2018) Toward a service-based workflow for automated information extraction from herbarium specimens. Database : the journal of biological databases and curation 2018
Kirchhoff, Agnes; Bügel, Ulrich; Santamaria, Eduard; Reimeier, Fabian; Röpert, Dominik; Tebbje, Alexander; Güntsch, Anton; Chaves, Fernando; Steinke, Karl-Heinz; Berendsohn, Walter
(Siehe online unter https://doi.org/10.1093/database/bay103) - 2015: Automating Data Capture from Natural History Specimens. Synthesys 3, Work Package 4, Task 1.2., Deliverable 4.2
Haston, E., Albenga, L., Chagnoux, S., Drinkwater, R., Durrant, J., Gilbert, E., Glöckler, F., Green, L., Harris, D., Holetschek, J., Hudson, L., Kahle, P., King, S., Kirchhoff, A., Kroupa, A., Kvacek, J., Le Bras, G., Livermore, L., Mühlenberger, G., Paul, D., Phillips, S., Smirnova, L., Vacek, F., Walker, S.
- (2016): Information-Extraction from Herbarium Specimens: The Stan-DAP-Herb Project. SPNC Annual Meeting 20.-25.06.2016, Berlin, Germany
Kirchhoff, A., Röpert, D., Güntsch, A., Berendsohn, W.G., Steinke, K.-H., Guan, C., Zheng, H., Chaves- S., F., Bügel, U., Santamaria, E.