Project Details
InVenod - interaktive Verarbeitung nicht OCR-geeigneter Dokumente
Subject Area
Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing
Term
from 2008 to 2014
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 62297683
Im Rahmen des Vorgänger-Projektes VENOD (Verarbeitung nicht OCR-geeigneter Dokumente) ist eine Methodik entwickelt worden, um einen dokumenteigenen Font aus dem Digitalisat eines historischen gedruckten Werkes mit Hilfe von Verfahren der Dokumentbildverarbeitung zu generieren. Die Idee dahinter besteht darin, dass es Schriften insbesondere in historischen Dokumenten gibt, die sich jeglichen OCR-Verfahren entziehen.Dem geplanten INVENOD-Projekt liegt die Erkenntnis des VENOD-Projektes zugrunde, dass nicht nur typische dokumenteigene Fonts zu handhaben sind, sondern tiefer liegende Probleme der Segmentierung von Zeichen und deren Klassifizierung ebenso dokumenteigen sind. Denn die Dokumentseiten eines Werkes oder gar verschiedener Werke, die von derselben Druckerei gedruckt wurden, leiden in der Regel unter denselben Problemen, weisen etwa ähnliche Verzerrungen auf So liegt es nahe, die VENODSche Philosophie, einen dokumenteigenen Font zu generieren, einen Schritt weiterzutreiben: dokumenteigene Probleme werden identifiziert, eventuell mit Hilfe von Nutzerinteraktionen aufgelöst und diese verbesserten Lösungen schließlich auf das verbleibende Dokument übertragen.INVENOD soll die Verarbeitung nicht OCR-geeigneter Dokumente von den einzelnen Zeichen auf das gesamte Dokument ausdehnen und so Schriften, die sich in jedem Textverarbeitungsprogramm nutzen lassen erzeugen, die Segmentierung vervollständigen und die Ausgabeverfahren sollen das Originaldokument besser in neue Formate transformieren, da auch die Lesereihenfolge korrigiert werden kann. Der automatische VENOD-Prozess wird so erweitert, dass er an geeigneten Stellen Korrekturen erlaubt und damit deutlich mehr Dokumente erfolgreich bearbeitet werden können. Da die dokumenteigenen Schriften in dokumentunabhängige Schriften gewandelt werden, was einer Texterkennung (OCR) entspricht, lassen sich die reproduzierten Dokumente auf herkömmliche Weise durchsuchen und dem Informationsmanagement zugänglich machen.
DFG Programme
Research data and software (Scientific Library Services and Information Systems)