Detailseite
Projekt Druckansicht

Interaktive Grammatikanalyse historischer Texte: Adaptive Annotationsverfahren zur Erschließung des Sprachausbaus im Mittelniederdeutschen (InterGramm)

Fachliche Zuordnung Angewandte Sprachwissenschaften, Computerlinguistik
Förderung Förderung von 2016 bis 2021
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 317446073
 
Erstellungsjahr 2021

Zusammenfassung der Projektergebnisse

"InterGramm" untersuchte den Sprachausbau des Mittelniederdeutschen vom 13. Jahrhundert bis zum Schreibsprachenwechsel im 16./17. Jahrhundert. Es leistete damit einen Beitrag zur Rekonstruktion der bislang erst punktuell untersuchten grammatischen Entwicklung des Mittelniederdeutschen als historischer Schriftsprache. Als empirisches Forschungsvorhaben konzentrierte es sich auf städtische Rechtssatzungen, in denen die Veränderung der grammatischen Konstruktion von Konditionalität untersucht wurde. Dafür wurde ein interaktives Verfahren entwickelt, das maschinelles Lernen und Expertenfeedback kombiniert. Auf diese Weise wurde ein wichtiger Beitrag zur Lösung eines zentralen Problems bestehender Annotationsverfahren für historische Texte geleistet. Denn existierende Parsingund Tagging-Verfahren der Computerlinguistik setzen statische (a priori definierte) Grammatiken bzw. grammatische Kategorien voraus, was der historischen Dynamik der Grammatik nicht gerecht wird. Eine sich diachron entwickelnde, dynamische Grammatik mittels regelbasierter Textanalyseverfahren und Methoden des maschinellen Lernens im Korpus zu entdecken und auf diese Weise den Sprachwandel evidenzbasiert zu rekonstruieren, war eine Herausforderung. Es leistete einerseits einen theoretischen und andererseits einen methodischen Beitrag zum aktuellen Forschungsstand in der Linguistik, Computerlinguistik und Informatik. Erstmals wurde der Unsicherheitsbegriff fächerübergreifend diskutiert und zusammengeführt, um die verschiedenden Ebenen von Unschärfe bei der Textannotation systematisch zu erfassen und später für das Maschinelle Lernen nutzbar zu machen. Auch konnte korpusbasiert Einsicht in den Wandel der mittelniederdeutschen Grammatik gewonnen werden. Insbesondere auf Wortartebene wurden tiefer gehende Erkenntnisse bezüglich der transitorischen Phänomene erlangt, die im Korpus häufig als "ambig", "wahrscheinlicher als" oder "unsicher" annotiert wurden. Durch die konsequente Dokumentation von diesen verschiedenen Unsicherheitsphänomenen bei der Annotation, ohne sich auf gewisses Konventionen versteifen zu müssen, konnte ein Mehrwert für die spätere manuelle und maschinelle Nutzung des Korpusmaterials geschaffen werden. Außerdem wurden wichtige Erfahrungen im Bereich des konstruktionalen Annotierens gesammelt. Im Projektverlauf stellte sich heraus, dass der Untersuchungsgegenstand "historische Sprache" und insbesondere Form-Funktions-Kopplungen äußerst herausfordernd in ihrer Analyse sein können, was sowohl die menschliche als auch die maschinelle Annotation betrifft. Darüber hinaus traten unter den Analyse-Ergebnissen immer wieder Muster auf, die in bestimmten Texten im Korpus dominierten und wiederum in anderen Texten (auch ähnlichen Alters) nur eine marginale Rolle spielten, was überraschend war. Auch zeigte sich relativ bald, dass Standard-Verfahren der Computerlinguistik, wie unter anderem Satzendeerkennung hier nicht angewendet werden konnten, da sie auf Basis des Punktes als Markierung eines Satzendes oder einer Abkürzung arbeiten. Da aber in der Zeit vom 13. bis 17. Jahrhundert der Punkt selten in dieser Funktion benutzt wird, mussten Alternativen zur Segmentierung gefunden werden. Ähnlich war es bei der Rechtschreibung und Silbentrennung, die oft noch nicht systematisch Anwendung fanden und deshalb keine verlässlichen Indikatoren für die maschinelle Sprachverarbeitung waren.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung