Detailseite
Projekt Druckansicht

Deutsches Textarchiv (DTA) - Aufbau eines Aktiven Archivs deutscher Texte und Entwicklung entsprechender Werkzeuge

Fachliche Zuordnung Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung Förderung von 2007 bis 2017
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 37149321
 
Erstellungsjahr 2018

Zusammenfassung der Projektergebnisse

Das Deutsche Textarchiv (DTA), angesiedelt am "Zentrum Sprache" der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW), wurde von 2007 bis 2016 von der DFG gefördert. Ziel war zunächst die Erstellung eines Disziplin- und Gattungs-übergreifenden Grundbestands von etwa 1.500 deutschsprachigen Texten aus dem Zeitraum von ca. 1600 bis etwa 1900 (des sog. "DTA-Kernkorpus"). Zudem sollte die DTA-Infrastruktur von vornherein als 'aktives Archiv' konzipiert werden, sodass auch Textressourcen aus anderen Projektkontexten als Erweiterungskorpora integriert werden können. Beide Ziele wurden erreicht; mit Stand vom Februar 2018 umfasst das DTA mit Kern- und Erweiterungskorpus sowie weiteren angegliederten Spezialkorpora mehr als 4.700 Dokumente mit über 1,1 Mio. Seiten und ca. 340 Mio. Tokens. Das Deutsche Textarchiv (DTA) bildet damit das größte existierende, zusammenhängende Korpus des historischen Neuhochdeutschen. Die im DTA enthaltenen Texte wurden in der Regel manuell erfasst und entsprechend den P5-Richtlinien der Text Encoding Initiative (TEI-P5) hinsichtlich von Textgliederungsmerkmalen ausgezeichnet. Grundlage für die Auszeichnung bildet als TEI-Dialekt das DTA-Basisformat (DTABf). Sämtliche Texte des DTA durchlaufen außerdem vollautomatisch eine Reihe linguistischer Verarbeitungsschritte, die die Satzsegmentierung, Tokenisierung, Lemmatisierung, Modernisierung historischer Schreibweisen sowie das Part-of-Speech-Tagging umfassen. Die Indexierung durch eine linguistische Suchmaschine ermöglicht komplexe Abfragen sowie die Durchführung diachroner Frequenz- und Kollokationsanalysen. Die Qualitätssicherung und Korrektur der Transkriptionen und Annotationen findet webbasiert und kollaborativ in der Plattform DTAQ statt (Feb. 2019: 1.688 registrierte Accounts). Das DTA hat sich nicht nur als Anlaufstelle für die Aufnahme qualitativ hochwertiger historischer Volltexte, sondern auch als eine von vielen genutzte Plattform zur Produktion, Kuration, Publikation, Analyse und Nachnutzung umfangreicher historischer Korpusdaten etabliert. Kooperationen mit mehr als dreißig Forschungsprojekten, meist mit Drittmittel-Förderung (DFG, BMBF, Akademieprogramm u. a.), gelegentlich auch aus unabhängigen Initiativen konnten durchgeführt werden. Inhaltlich umfassten diese die Übernahme von Daten aus gänzlich externen Vorhaben wie auch die direkte Kooperation bei der Digitalisierung. Entscheidend für die Integration heterogener Datenbestände in die DTA- bzw. CLARIN-Infrastruktur sind einheitliche Richtlinien zur Textaufbereitung und die einheitliche Textkodierung im DTABf. Das DTABf wurde ursprünglich für den gedruckten, vorwiegend monographischen Kernbestand des DTA entwickelt, wurde jedoch mittlerweile um Spezialtagsets für Zeitungen, Funeral-Schriften und Manuskripte erweitert. Das Format wird bereits in zahlreichen, auch DTA-externen Vorhaben nachgenutzt und wird inzwischen von CLARIN-D und der DFG empfohlen. Auch nach Abschluss der DFG-Förderung wird die DTA-Plattform weiter aktiv genutzt. Die weitere Dissemination und langfristige Verfügbarkeit der DTA-Korpora, der Erhalt und die Weiterentwicklung der technischen Komponenten und Formate sowie schließlich die weitergeführte Kuratierung von Textressourcen wird derzeit durch das CLARIN-Servicezentrum der BBAW (gefördert durch das BMBF) gewährleistet. Nicht zuletzt gehen die Bestände des DTA auch in das gleichfalls vom BMBF geförderte "Zentrum für digitale Lexikographie des Deutschen (ZDL)", das am 01.01.2019 eröffnet wurde, ein.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung