Project Details
Projekt Print View

Digitisation / Cataloguing of non-textual objects: A standardised and optimised process for data acquisition from digital images of herbarium specimens

Subject Area Evolution and Systematics of Plants and Fungi
Software Engineering and Programming Languages
Term from 2014 to 2017
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 248339659
 
Final Report Year 2018

Final Report Abstract

Das Projekt StanDAP-Herb (Standard Data Acquisition Process of digital Herbaria) befasste sich mit der Optimierung von Arbeits- und Informationsflüssen zur automatischen und semi-automatischen Inhaltserschließung von Herbarbelegen. Ziel ist dabei, den durch die immer effektiveren Digitalisierungsverfahren entstehenden Rückstand bei der Klassifikation von Belegen und der Erfassung der Etiketteninformation so weit wie möglich aufzuholen. In einer ersten Projektphase wurden verfügbare fach-spezifische und fach-übergreifende Dienste und Softwaresysteme zur automatisierten Inhaltserschließung recherchiert und bezüglich ihrer Leistungsfähigkeit und Integrierbarkeit in Workflowsysteme analysiert. Ein besonderer Fokus lag dabei auf dem Vergleich verschiedener OCR-Verfahren, die für die Vorverarbeitung für Text-Mining Algorithmen angewendet werden. Das Testen der verschiedenen Komponenten wurde auf Basis des am Fraunhofer IOSB betriebenen WebGenesis Workflow Systems durchgeführt, über das auch das Management der zu verarbeitenden Bilddateien abgewickelt wurde. Parallel zu der Analyse der verschiedenen Erschließungsmethoden wurde ein Standardworkflow für die (semi-) automatisierte Verarbeitung von Herbarbildern definiert und als BPMN Model formal spezifiziert. Wertvolle Beiträge zu verfügbaren Diensten und dem generellen Informationsfluss lieferte eine projektbegleitende Arbeitsgruppe mit Kuratoren aus dem deutschsprachigen Raum. Sämtliche Rechercheergebnisse sowie das formale Modell sind über das Projekt-Wiki System zugänglich. Kriterien bei der Wahl einer Softwareplattform für die Implementierung eines integrierten Erschließungs-Workflows waren i) die freie Verfügbarkeit, ii) einfache Erweiterbarkeit mit externen Diensten und iii) die Verankerung in der Entwicklercommunity der Biodiversitätsinformatik. Auf Basis dieser Kriterien wurde die Open Source Plattform OpenRefine gewählt, die bereits breit für das Management von Biodiversitätsdaten eingesetzt wird und mit externen Diensten erweitert werden kann. Für die StanDAP-Herb Plattform wurden Dienste zur Extraktion von wissenschaftlichen Namen, Personen und Datumsangaben sowie Ortsangaben und Geo-koordinaten integriert. Eine Anbindung an das Sammlungssystem JACQ, mit dem derzeit Daten aus 43 Herbarien gepflegt werden wurde beispielhaft auf Basis des Datenstandards ABCD realisiert und kann leicht auf andere Sammlungssysteme ausgedehnt werden. Geplant ist zum Beispiel der Einsatz am Royal Botanic Garden Edinburgh (Sammlungssystem BGBase). Sämtliche im Projekt entwickelten Softwarekomponenten sind frei verfügbar. Der BGBM hat die StanDAP-Herb Plattform in die institutionellen Datenmanagement-Prozesse eingebunden, erweitert das System durch neu verfügbare Dienste und entwickelt die Software aktiv weiter. Angestrebt wird ebenfalls eine Stärkung der internationalen Kooperation auf dem Gebiet der automatisierten Inhaltserschließung.

Publications

  • (2018) Toward a service-based workflow for automated information extraction from herbarium specimens. Database : the journal of biological databases and curation 2018
    Kirchhoff, Agnes; Bügel, Ulrich; Santamaria, Eduard; Reimeier, Fabian; Röpert, Dominik; Tebbje, Alexander; Güntsch, Anton; Chaves, Fernando; Steinke, Karl-Heinz; Berendsohn, Walter
    (See online at https://doi.org/10.1093/database/bay103)
  • 2015: Automating Data Capture from Natural History Specimens. Synthesys 3, Work Package 4, Task 1.2., Deliverable 4.2
    Haston, E., Albenga, L., Chagnoux, S., Drinkwater, R., Durrant, J., Gilbert, E., Glöckler, F., Green, L., Harris, D., Holetschek, J., Hudson, L., Kahle, P., King, S., Kirchhoff, A., Kroupa, A., Kvacek, J., Le Bras, G., Livermore, L., Mühlenberger, G., Paul, D., Phillips, S., Smirnova, L., Vacek, F., Walker, S.
  • (2016): Information-Extraction from Herbarium Specimens: The Stan-DAP-Herb Project. SPNC Annual Meeting 20.-25.06.2016, Berlin, Germany
    Kirchhoff, A., Röpert, D., Güntsch, A., Berendsohn, W.G., Steinke, K.-H., Guan, C., Zheng, H., Chaves- S., F., Bügel, U., Santamaria, E.
 
 

Additional Information

Textvergrößerung und Kontrastanpassung