Detailseite
Training von lernenden Verfahren zur automatischen Nachkorrektur OCR-erfasster historischer Drucke
Antragsteller
Professor Dr. Klaus U. Schulz
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung
Förderung von 2020 bis 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 431091758
Da OCR-Ergebnisse auf historischen Drucken meist eine hohe Fehlerzahl aufweisen, haben Nachkorrekturmethoden in diesem Bereich eine wichtige Funktion. Automatische Nachkorrekturverfahren, die ``individuell'' für spezielle OCR-erfasste historische Korpora entwickelt wurden, zeigen dort teilweise gute Egebnisse. Weit entfernt ist man hingegen von einem ``omnipotenten'' breit einsetzbaren Nachkorrekturverfahren, das auf mit unterschiedlichen OCR-Engines erfassten beliebigen historischen Drucken gleichbleibend gute Ergebnisse erzielt. Im Rahmen von OCR-D werden derzeit Korrektursysteme implementiert, die auf Verfahren des überwachten Lernens beruhen. Im Idealfall sollen diese später allgemein einsetzbar sein. Im Projekt soll der Einfluss von Trainingsdaten und -methoden für lernbasierte Korrektursysteme auf die Qualität der erzielten Korrekturergebnisse systematisch untersucht werden. Das langfristige Leitziel besteht in der Entwicklung eines möglichst ``omnipotenten'' Nachkorrekturmodells. Als Anfangsschritt soll zunächst nach Trainingsmethoden und Featuresystemen gesucht werden, die für spezielle Klassen OCR-erfasster historischer Drucke optimale Ergebnisse liefern. Gleichzeitig werden die Schwächen bei Anwenden auf andere OCRs und Texte analysiert. Nachfolgend soll nach Wegen gesucht werden, wie man unter Minimierung des manuellen Aufwands, der durch das Bereitstellen neuer Ground-Truth-Daten und das Nachtraining entsteht, gute Korrekturergebnisse für umfangreichere und uneinheitlichere Kollektionen von OCR-Korpora erhalten kann. In diesem Rahmen werden u.a. die Kombination von Korrekturmodellen und die automatisierte Auswahl eines Korrekturmodells für ein gegebenes OCR-Korpus untersucht.
DFG-Verfahren
Sachbeihilfen