Domänen- und dokumentenadaptive Verfahren zur Nachkorrektur von OCR-Ergebnissen
Zusammenfassung der Projektergebnisse
Zielsetzung des Projekts war es, die Adaptivität und Leistungsstärke von Verfahren zur Korrektur fehlerhafter Texte zu erhöhen, indem Domäne, sprachliches Bild des Gesamttexts und logischer Kontext von Dokumententeilen bei der Korrektur mitberücksichtigt werden. Als Ergebnis der Arbeiten sind zwei gut abgrenzbare Bereiche sichtbar, wo im Projekt ein substantieller Fortschritt erreicht wurde. Die Arbeiten des Vorprojekts und zu Beginn des Berichtzeitraums dienten vor allem dazu, die zur Korrektur eingesetzten Resourcen in adaptiver Weise zu optimieren. Ein kleines thematisches Profil des Eingabetexts wurde verwendet, um auf die Domäne abgestimmte Lexika und Sprachmodelle per Webcrawls zu generieren, die bei der Korrektur eingesetzt wurden. Die Arbeit 7 der Publikationsliste fasst die hier gewonnenen Strategien, Resultate und Einsichten zusammen und zeigt, dass diese Art der Adaption eine echte Verbesserung der Korrekturverfahren mit sich bringt. Am Institut haben wir als wichtiges Nebenresultat eine Software-Infrastruktur aufgebaut, mit der diese Art der Resourcenoptimierung mit wirklich akzeptablem Aufwand betrieben werden kann. Die Arbeiten im Umfeld der Fehlerwörterbücher setzen einen anderen Schwerpunkt. Sie zielen darauf ab, mit vollautomatischen und hocheffizienten Methoden eine Charakterisierung des Fehlerkanals und des Sprachmodells des fehlerhaften Eingabetexts zu erzielen. Jede diesbezügliche Information zum Eingabetext hilft, Parameter zu optimieren. Diese Parameter steuern die Unterscheidung zwischen Fehlern und korrekt erkannten nichtlexi kalischen Wörtern einerseits und dem Ranking der Korrekturvorschläge andererseits. Auch diese Form der Adaptivität hat sich als sehr erfolgreich erwiesen. Die Frage, welche Methoden besonders geeignet sind, um ein möglichst präzises Profil eines fehlerhaften Eingabetexts zu erreichen, ist aus unserer Sicht extrem spannend und auch mit den hier vorgelegten Techniken in keiner Weise endgültig beantwortet.
Projektbezogene Publikationen (Auswahl)
-
Adaptive Text Correction with Web-Crawled Domain Dependent Dictionaries. ACM Transactions on Speech and Language Processing (TSLP), Vol. 4, Issue 4 (October 2007)
Christoph Ringlstetter, Klaus U. Schulz und Stoyan Mihov
-
Deriving Symbol Dependent Edit Weights for Text Correction - the Use of Error Dictionaries. In: Proceedings of the 9th Intemational Conference on Document Analysis and Recognition (ICDAR'07) Vol. 2, pp. 639 - 643
Christoph Ringlstetter, Ulrich Reffle, Annette Gotscharek, Klaus U. Schulz
-
Efficient dictionary-based text rewriting using subsequential transducers. Natural Language Engineering Volume 13 , Issue 4 (December 2007), Pages 353-381
Stoyan Mihov, Klaus U. Schulz
-
Efficiently Annotating Texts with Ultra Large Rewriting Dictionaries, Research Report, CIS, University of Munich, 2007
Stoyan Mihov, Klaus U. Schulz, Christoph Ringlstetter
-
Fast Selection of Small and Precise Candidate Sets From Dictionaries for Text Correction Tasks. In: Proceedings of the 9th Intemational Conference on Document Analysis and Recognition (ICDAR 2007) Vol. 1, pp. 471- 475
Stoyan Mihov, Petar Mitankin, Klaus U. Schulz
-
Information Access to Historical Documents from the Early New High German Period. In: Proceedings of the IJCAI-2007 Workshop on Analytics for Noisy Unstructured Text Data (AND-07), Hyderabad, India. January 8, 2007, S. 147-154
Andreas Hauser, Markus Heller, Elisabeth Leiss, Klaus U. Schulz and Christiane Wanzeck
-
Text Correction Using Domain Dependent Bigram Models from Web Crawls. In: Proceedings of the IJCAI-2007 Workshop on Analytics for Noisy Unstructured Text Data (AND-07), Hyderabad, India. January 8, 2007, S. 47-55
Christoph Ringlstetter, Max Hadersbeck, Klaus U. Schulz and Stoyan Mihov
-
Tuning the Selection of Correction Candidates for Garbled Tokens using Error Dictionaries. In: Finite State Techniques and Approximate Search, Stoyan Mihov and Klaus U. Schulz (eds.). Proceedings of the First Workshop on Finite-State Techniques and Approximate Search, September 30th, 2007, Borovets, Bulgaria, pp. 25-30
Stoyan Mihov, Petar Mitankin, Annette Gotscharek, Ulli Reffle, Klaus U. Schulz, Christoph Ringlstetter
-
Using Automated Error Profiling of Texts for Improved Selection of Correction Candidates for Garbled Tokens. In: Proceedings of the Twentieth Australian Joint Conference on Artificial Intelligence 2007 (AI07), Gold Coast, Australia. Springer LNCS 4830, pp. 456-465
Stoyan Mihov, Petar Mitankin, Annette Gotscharek, Ulrich Reffle, Klaus U. Schulz, Christoph Ringlstetter
-
Efficient Techniques for Approximate Record Matching modulo Permutation, In G. Gross & K. U. Schulz (eds.): Linguistics, Computer Science and Language Processing: Festschrift for Franz Guenthner on the Occasion of His 60th Birthday (Tributes). College Publications, London, 2008
Ulrich Reffle, Klaus U. Schulz
-
Proceedings of the Second Workshop on Analytics for Noisy Unstructured Text Data, Singapore, July 24 - 24, 2008. ACM International Conference Proceeding Series Vol. 303, 2008
Daniel Lopresti, Shourya Roy, Klaus U. Schulz, L. Venkata Subramaniam
-
Successfully detecting and correcting false friends using channel profiles. Proceedings of the SIGIR-2008 Workshop on Analytics for Noisy Unstructured Text Data (AND-08), ACM-Publications
Ulrich Reffle, Annette Gotscharek, Christoph Ringlstetter, Klaus U. Schulz