InVenod - interaktive Verarbeitung nicht OCR-geeigneter Dokumente

Applicants Privatdozent Dr. Björn Gottfried; Professor Dr.-Ing. Arved C. Hübler

Subject Area Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing

Term from 2008 to 2014

Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 62297683

Im Rahmen des Vorgänger-Projektes VENOD (Verarbeitung nicht OCR-geeigneter Dokumente) ist eine Methodik entwickelt worden, um einen dokumenteigenen Font aus dem Digitalisat eines historischen gedruckten Werkes mit Hilfe von Verfahren der Dokumentbildverarbeitung zu generieren. Die Idee dahinter besteht darin, dass es Schriften insbesondere in historischen Dokumenten gibt, die sich jeglichen OCR-Verfahren entziehen.Dem geplanten INVENOD-Projekt liegt die Erkenntnis des VENOD-Projektes zugrunde, dass nicht nur typische dokumenteigene Fonts zu handhaben sind, sondern tiefer liegende Probleme der Segmentierung von Zeichen und deren Klassifizierung ebenso dokumenteigen sind. Denn die Dokumentseiten eines Werkes oder gar verschiedener Werke, die von derselben Druckerei gedruckt wurden, leiden in der Regel unter denselben Problemen, weisen etwa ähnliche Verzerrungen auf So liegt es nahe, die VENODSche Philosophie, einen dokumenteigenen Font zu generieren, einen Schritt weiterzutreiben: dokumenteigene Probleme werden identifiziert, eventuell mit Hilfe von Nutzerinteraktionen aufgelöst und diese verbesserten Lösungen schließlich auf das verbleibende Dokument übertragen.INVENOD soll die Verarbeitung nicht OCR-geeigneter Dokumente von den einzelnen Zeichen auf das gesamte Dokument ausdehnen und so Schriften, die sich in jedem Textverarbeitungsprogramm nutzen lassen erzeugen, die Segmentierung vervollständigen und die Ausgabeverfahren sollen das Originaldokument besser in neue Formate transformieren, da auch die Lesereihenfolge korrigiert werden kann. Der automatische VENOD-Prozess wird so erweitert, dass er an geeigneten Stellen Korrekturen erlaubt und damit deutlich mehr Dokumente erfolgreich bearbeitet werden können. Da die dokumenteigenen Schriften in dokumentunabhängige Schriften gewandelt werden, was einer Texterkennung (OCR) entspricht, lassen sich die reproduzierten Dokumente auf herkömmliche Weise durchsuchen und dem Informationsmanagement zugänglich machen.

DFG Programme Research data and software (Scientific Library Services and Information Systems)

Servicenavigation

Hauptnavigation

InVenod - interaktive Verarbeitung nicht OCR-geeigneter Dokumente

Additional Information

Servicenavigation

Hauptnavigation

InVenod - interaktive Verarbeitung nicht OCR-geeigneter Dokumente

Additional Information

Textvergrößerung und Kontrastanpassung