Die Grenzboten - Digitalisierung, Erschließung und Volltexterkennung einer der herausragenden deutschen Zeitschriften des 19. und 20. Jahrhunderts
Zusammenfassung der Projektergebnisse
Im Rahmen des Digitalisierungsprojekts wurde die Zeitschrift für Politik und Kunst "Die Grenzboten" (1841−1922) digitalisiert sowie in Struktur und Volltext erschlossen. Damit wurde eine wichtige geisteswissenschaftliche Quelle für die kulturhistorische Forschung des 19. Jahrhunderts digital bereitgestellt. Die lange Erscheinungsdauer der Grenzboten ermöglicht die Analyse von Verstetigung und Wandel kultureller Werte sowie medialer Strukturen des deutschen Nationalismus. Zusammen mit der Themenvielfalt macht dies Die Grenzboten zu einer sehr wichtigen Quelle geisteswissenschaftlicher Forschung. Aufgrund konkreter Anforderungen einer interdisziplinär zusammengesetzten Forschergruppe, die das Projekt begleitete, wurde das Digitalisat im Volltext erschlossen. Die manuell ausgezählte durchschnittliche Zeichenerkennungsrate betrug nach Abschluss des Digitalisierungsprojektes 98,6%. Die digitalisierte Version der Grenzboten wird in einem modernen Internetportal (Visual Library) präsentiert, das alle erwarteten Retrievalfunktionen realisiert; u.a.: Einstieg über Jahrgänge, Titel und Strukturdaten sowie Recherchefunktionalität im Volltext. Standardisierte Schnittstellen garantieren zudem, dass alle rechercherelevanten Daten automatisiert an die „Europäische Digitale Bibliothek“ Europeana sowie in weitere relevante virtuelle Fachbibliotheken und Nachweissysteme weitergegeben werden. Das Fortsetzungsprojekt hatte die Zielsetzung, die bis dahin erreichte Zeichenerkennungsquote von 98,6% mit verschiedenen Ansätzen auf 99,5% zu erhöhen (Reduktion der Fehlerquote um 64%) und den gesamten Grenzboten- Korpus aufbereitet in Zusammenarbeit mit dem Zentrum Sprache der BBAW (Berlin-Brandenburgische Akademie der Wissenschaften) in das dort angesiedelte Deutsche Textarchiv zu integrieren. Das Ziel der OCR-Nachkorrektur konnte mit leichten Abstrichen zu einer Zeichenerkennungsquote zwischen 98,72% und 99,50% umgesetzt werden. Am Deutschen Textarchiv in Berlin wurde der nachkorrigierte Volltext mit weitreichenden Strukturauszeichnungen angereichert und wird derzeit in das System DTAE und damit in die CLARIN-D Infrastruktur integriert. Am Beispiel der „Grenzboten“ wurden automatisierte Methoden zur Nachbearbeitung von OCR-Volltexten und aktuelle Software-Werkzeuge und -Dienstleistungen entwickelt, bewertet und im Rahmen eines Erfahrungsberichtes dokumentiert. Der Erfahrungsaustausch mit dem IMPACT Centre of Competence führte zu einer Kooperation mit einer australischen Firma, im Rahmen dessen der webbasierte Service Overproof (http://overproof.projectcomputing.com/) um die Funktionalität der Nachkorrektur deutschsprachiger Frakturschrift erweitert wurde.