Detailseite
OPERANDI - OCR-D Performanzoptimierung und Integration. Ein Implementierungspaket der OCR-D-Software für die Massendigitalisierung
Antragsteller
Zeki Mustafa Dogan, seit 1/2024; Professor Dr. Ramin Yahyapour
Fachliche Zuordnung
Theoretische Informatik
Förderung
Förderung von 2021 bis 2025
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 460609319
Das Ziel des Vorhabens ist die Entwicklung und der Aufbau eines auf OCR-D basierenden Implementierungspaketes zur Massenvolltexterfassung mit verbessertem Durchsatz, bei besserer Qualität der Ergebnisse. Zugleich wird das Ziel verfolgt, dass das Implementierungspaket auch von anderen Vorhaben und Einrichtungen mit vergleichbaren Anforderungen nachgenutzt werden kann. Im Rahmen der Pilotierung wurden zwei Szenarien identifiziert. Im ersten Szenario soll die OCR-Erzeugung für bereits digitalisierte Werke stattfinden, was in einer Massendigitalisierung mündet. Im zweiten Szenario erfolgt die OCR-Erzeugung für neue zu digitalisierende Werke im Rahmen des Digtalisierungsprozesses. Um beide Szenarien bedienen zu können, zielt das Vorhaben darauf ab, eine performante, skalierbare Implementierung für die Massendigitalisierung zusammenzustellen. Diese wird auf einem Hochleistungsrechner ausgeführt und unterstützt adaptive, parallelisierte Workflows. Zudem werden ergänzende Aufgaben berücksichtigt, wie z.B. Datenhandling, Taskmanagement und -priorisierung, Fehlerbehandlung, synchrone/asynchrone Interprozesskommunikation durch Schnittstellen, Lastverteilung, Authentifizierung und Autorisierung. Besonderes Augenmerk wird dabei sowohl auf die Parallelverarbeitung performance-kritischer Prozesse des Workflows, als auch auf die Integration der OCR-D Software in die Digitalisierungssoftware gelegt. Dabei werden die Anforderungen der VD-Partnerbibliotheken, der weiteren Projekte aus der dritten Phase von OCR-D sowie der Goobi-/Kitodo-Community berücksichtigt.
DFG-Verfahren
Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
Mitverantwortlich
Professor Dr. Philipp Wieder
Ehemaliger Antragsteller
Professor Dr. Wolfram Horstmann, bis 12/2023