Interactive grammar analysis of historical texts: Adaptive annotation approach to reconstruct the grammatical elaboration of Middle Low German (InterGramm)
Final Report Abstract
"InterGramm" untersuchte den Sprachausbau des Mittelniederdeutschen vom 13. Jahrhundert bis zum Schreibsprachenwechsel im 16./17. Jahrhundert. Es leistete damit einen Beitrag zur Rekonstruktion der bislang erst punktuell untersuchten grammatischen Entwicklung des Mittelniederdeutschen als historischer Schriftsprache. Als empirisches Forschungsvorhaben konzentrierte es sich auf städtische Rechtssatzungen, in denen die Veränderung der grammatischen Konstruktion von Konditionalität untersucht wurde. Dafür wurde ein interaktives Verfahren entwickelt, das maschinelles Lernen und Expertenfeedback kombiniert. Auf diese Weise wurde ein wichtiger Beitrag zur Lösung eines zentralen Problems bestehender Annotationsverfahren für historische Texte geleistet. Denn existierende Parsingund Tagging-Verfahren der Computerlinguistik setzen statische (a priori definierte) Grammatiken bzw. grammatische Kategorien voraus, was der historischen Dynamik der Grammatik nicht gerecht wird. Eine sich diachron entwickelnde, dynamische Grammatik mittels regelbasierter Textanalyseverfahren und Methoden des maschinellen Lernens im Korpus zu entdecken und auf diese Weise den Sprachwandel evidenzbasiert zu rekonstruieren, war eine Herausforderung. Es leistete einerseits einen theoretischen und andererseits einen methodischen Beitrag zum aktuellen Forschungsstand in der Linguistik, Computerlinguistik und Informatik. Erstmals wurde der Unsicherheitsbegriff fächerübergreifend diskutiert und zusammengeführt, um die verschiedenden Ebenen von Unschärfe bei der Textannotation systematisch zu erfassen und später für das Maschinelle Lernen nutzbar zu machen. Auch konnte korpusbasiert Einsicht in den Wandel der mittelniederdeutschen Grammatik gewonnen werden. Insbesondere auf Wortartebene wurden tiefer gehende Erkenntnisse bezüglich der transitorischen Phänomene erlangt, die im Korpus häufig als "ambig", "wahrscheinlicher als" oder "unsicher" annotiert wurden. Durch die konsequente Dokumentation von diesen verschiedenen Unsicherheitsphänomenen bei der Annotation, ohne sich auf gewisses Konventionen versteifen zu müssen, konnte ein Mehrwert für die spätere manuelle und maschinelle Nutzung des Korpusmaterials geschaffen werden. Außerdem wurden wichtige Erfahrungen im Bereich des konstruktionalen Annotierens gesammelt. Im Projektverlauf stellte sich heraus, dass der Untersuchungsgegenstand "historische Sprache" und insbesondere Form-Funktions-Kopplungen äußerst herausfordernd in ihrer Analyse sein können, was sowohl die menschliche als auch die maschinelle Annotation betrifft. Darüber hinaus traten unter den Analyse-Ergebnissen immer wieder Muster auf, die in bestimmten Texten im Korpus dominierten und wiederum in anderen Texten (auch ähnlichen Alters) nur eine marginale Rolle spielten, was überraschend war. Auch zeigte sich relativ bald, dass Standard-Verfahren der Computerlinguistik, wie unter anderem Satzendeerkennung hier nicht angewendet werden konnten, da sie auf Basis des Punktes als Markierung eines Satzendes oder einer Abkürzung arbeiten. Da aber in der Zeit vom 13. bis 17. Jahrhundert der Punkt selten in dieser Funktion benutzt wird, mussten Alternativen zur Segmentierung gefunden werden. Ähnlich war es bei der Rechtschreibung und Silbentrennung, die oft noch nicht systematisch Anwendung fanden und deshalb keine verlässlichen Indikatoren für die maschinelle Sprachverarbeitung waren.
Publications
- (2017)."Annotation Challenges for Reconstructing the Structural Elaboration of Middle Low German". In: Proceedings of the Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature. Association for Computational Linguistics (ACL), S. 40-45
Seemann, Nina, Marie-Luis Merten u. a.
(See online at https://dx.doi.org/10.18653/v1/W17-2206) - (2018)."Analysing Constructional Change: Linguistic Annotation and Sources of Uncertainty” In: Proceedings of the 6th International Conference on Technological Ecosystems for Enhancing Multiculturality (TEEM'18). Hrsg. von F. J. García-Peñalvo. ACM's International Conference Proceedings Series. ACM, S. 819-825
Merten, Marie-Luis und Nina Seemann
(See online at https://doi.org/10.1145/3284179.3284320) - (2018)."Supporting the Cognitive Process in Annotation Tasks”. In: Postersession Computerlinguistik der 40. Jahrestagung der Deutschen Gesellschaft für Sprachwissenschaft. Hrsg. von Kerstin Eckart und Dominik Schlechtweg
Seemann, Nina, Michaela Geierhos u. a.
- (2019)."Grammatikwandel digital-kulturwissenschaftlich erforscht. Mittelniederdeutscher Sprachausbau im interdisziplinären Zugriff”. In: NdJB 142, S. 124-146
Merten, Marie-Luis, Nina Seemann und Marcel Wever
- (2019)."Interaktive Analyse historischen Grammatikwandels. Konstruktionsgrammatik trifft auf machine learning" . In: Jahrbuch für Germanistische Sprachgeschichte 10, S. 303-323
Merten, Marie-Luis und Doris Tophinke
(See online at https://doi.org/10.1515/jbgsg-2019-0017) - (2019)."UPB-Annotate: Ein maßgeschneidertes Toolkit für historische Texte" . In: DHd 2019 Digital Humanities: multimedial & multimodal. Konferenzabstracts. Hrsg. von Patrick Sahle. Zenodo, S. 352-353
Seemann, Nina und Marie-Luis Merten
(See online at https://doi.org/10.5281/ZENODO.2596094) - (2020). "Reliable Part-of-Speech Tagging of Historical Corpora through Set-Valued Prediction"
Heid, Stefan, Marcel Dominik Wever und Eyke Hüllermeier
- (2021). "Annotation Uncertainty in the Context of Grammatical Change"
Merten, Marie-Luis, Marcel Dominik Wever u. a.