Project Details
Projekt Print View

Reference Corpus Middle Low German / Low Rhenish (1200 - 1650)

Subject Area Applied Linguistics, Computational Linguistics
Term from 2012 to 2020
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 222400659
 
Final Report Year 2020

Final Report Abstract

Mit dem „Referenzkorpus Mittelniederdeutsch/Niederrheinisch (1200–1650)“ wird die Schriftkultur des niederdeutschen Sprachraums im Spätmittelalter und in der frühen Neuzeit erschlossen, die für die Geschichte Nordeuropas von höchstem sprach-, literatur- und kulturhistorischen Interesse ist. Das Korpus macht aus der breiten Überlieferung eine systematische Auswahl öffentlich zugänglich und stellt die Texte, die auf Grundlage der originalen Handschriften und Drucke transkribiert und grammatisch annotiert werden, in elektronischer Form allgemein für vielfältige Nutzungsmöglichkeiten zur Verfügung. Die Textauswahl ist so getroffen, dass sie die historische Sprach-, Literatur- und Kulturentwicklung in der räumlichen Untergliederung sowie in der textsortenspezifischen Auffächerung nachzuzeichnen vermag. Die Parameter Raum, Zeit und Feld der Schriftlichkeit bilden die Grundstruktur des Korpus. Es ist über das Such- und Visualisierungsprogramm ANNIS (Potsdam) veröffentlicht. Zusätzlich sind die Daten im TEI-Format, das ergänzende Annotationen ermöglicht, über das Hamburger Zentrum für Sprachkorpora zugänglich gemacht. In der finalen Korpusversion ReN 1.0 wurden insgesamt 180 Texte publiziert (14.08.2019), darunter 120 annotierte Texte und 60 weitere transkribierte Texte ohne Annotation. Die annotierten Texte umfassen knapp 1.399.387 Token, die transkribierten Texte 968.910 Token. Alle Texte sind vorlagengetreu transkribiert und wortweise annotiert (Wortart, Flexionsmorphologie, Lemmatisierung). Das fertige Korpus stellt ein Arbeitsinstrument insbesondere für grammatische Analysen auf allen Sprachebenen dar. Dies ist u. a. für die Erarbeitung einer neuen wissenschaftlichen mittelniederdeutschen Grammatik von großer Bedeutung. Zudem werden durch die korpuslinguistische Aufbereitung lexikologische Untersuchungen wie bspw. die Ermittlung von Wortfamilien im Deutschen unterstützt. Die angestrebte Verfügbarkeit im TEI-Format ermöglicht weitere Annotationen durch Nutzer des Korpus für spezifischere Anwendungen. Das nach den Parametern Zeit, Raum und Feld der Schriftlichkeit strukturierte Referenzkorpus bietet eine Grundlage für variationssensitive Untersuchungen zum Mittelniederdeutschen. Für die Mehrzahl der erfassten Sprachlandschaften liegen annotierte Texte aus verschiedenen Zeiträumen vor, sodass diachrone Analysen möglich sind. Hierfür bieten sich vor allem das Nordniedersächsische sowie das Ostelbische und das Ostfälische an, aber auch das Baltische und das Westfälische. Diatopische Untersuchungen auf der Basis annotierter Texte sind lückenlos für sämtliche Sprachlandschaften für die zweite Hälfte des 15. Jahrhunderts möglich, etwas eingeschränkter auch für jeweils die erste Hälfte des 15. und 16. Jahrhunderts. Um korpusübergreifende Suchanfragen in ANNIS zu ermöglichen, wurde im ReN ein Metadatenschema erstellt, das auf den Kategorien der Referenzkorpora Mittelhochdeutsch und Frühneuhochdeutsch basiert. Neben der Erstellung des Referenzkorpus konnten nachhaltig nutzbare Ressourcen für die Annotation und Lemmatisierung des Mittelniederdeutschen und Niederrheinischen geschaffen werden. Dafür sind Tools erarbeitet worden, die in zukünftigen Projekten beim Korpusaufbau eingesetzt werden können: SpellvarDetection (zur automatischen Identifikation von Schreibvarianten: https://github.com/fab-bar/SpellvarDetection); TextGammaTool (zur Berechnung von text-Gamma, dem im Projekt entwickelten Inter-Annotator-Agreement-Maß: https://github.com/fab-bar/TextGammaTool); Anpassungen von Lemming (zur Verbesserung der automatischen Lemmatisierung: https://github.com/fab-bar/cistern).

Publications

 
 

Additional Information

Textvergrößerung und Kontrastanpassung