Detailseite
Projekt Druckansicht

Weiterentwicklung eines semi-automatischen Open Source Tools zur Layout-Analyse und Regionen-Extraktion und -Klassifikation (LAREX) von frühen Buchdrucken

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2018 bis 2020
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 394329162
 
Ziel des Antrags ist die Weiterentwicklung unseres effizienten, semi-automatischen und leicht zu bedienenden Open Source Segmentierungs-Tool LAREX und seine Einbindung in den Open Source Digitalisierungs-Workflow im OCR-D Funktionsmodell. Das in den Vorarbeiten erstellte Tool LAREX (Layout Analysis and Region EXtraction) ermöglicht sowohl eine Grobsegmentierung mittels Trennung von Text und Nicht-Text als auch eine Feinsegmentierung durch die Erkennung und semantische Klassifikation unterschiedlicher Textblöcke. LAREX basiert auf einer effizienten Implementierung des Connected Component Ansatzes. Es kam bereits bei der Digitalisierung verschiedener früher Drucke zum Einsatz und konnte dabei stets die für eine qualitativ hochwertige Seitensegmentierung benötigte Zeit signifikant reduzieren.Das Hauptziel der Weiterentwicklung von LAREX besteht darin, den Automatisierungsgrad zu erhöhen. Dazu sind eine robustere Segmentierung und eine Weiterentwicklung des Regel- und Constraintsystems vonnöten. Dafür sollen einerseits die Nutzer über eine deklarative Regelsprache und andererseits Lernalgorithmen Anpassungen der Grundeinstellungen an die Besonderheiten einzelner Werke vornehmen und evaluieren können. Weiterhin wird die komfortable Benutzungsoberfläche von LAREX zur Korrektur einzelner Segmentierungsfehler weiterentwickelt, die auch zur Erstellung einer Ground Truth für Lernalgorithmen bzw. zur Evaluation notwendig ist. Das übergeordnete Ziel ist, eine optimale Kombination zwischen manuellen und automatischen Verfahren zu finden. Das Tool und das Vorgehensmodell soll mit zahlreichen Kooperationspartnern gründlich evaluiert werden, insbesondere auch im Gesamtkontext der Digitalisierung von frühen Drucken im OCR-D Funktionsmodell einschl. der anschließenden OCR durch Anbindung von externen Tools.
DFG-Verfahren Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung