Project Details
Projekt Print View

Anaphoricity in connectives: From corpus analysis to lexical description and consequences for discourse parsing

Subject Area General and Comparative Linguistics, Experimental Linguistics, Typology, Non-European Languages
Term from 2016 to 2021
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 323949969
 
Final Report Year 2021

Final Report Abstract

Das Projekt hat sich aus computerlinguistischer Perspektive mit dem Phänomen der Diskurskonnektoren beschäftigt: Wörter, die die Art des inhaltlichen Zusammenhangs (etwa kausal, temporal, kontrastiv) zwischen Satzteilen, Satzen und Textteilen signalisieren. Ein spezielles Augenmerk lag auf möglichen Verarbeitungsunterschieden zwischen solchen Konnektoren, die ein explizit anaphorisches Morphem beinhalten (etwa deswegen oder trotzdem und solchen, die das nicht tun, wie also oder nichtsdestoweniger. Insgesamt gliederte sich die Arbeit in drei Bereiche. Lexikon. Wir haben eine web-basierte Datenbank entwickelt, die Diskurskonnektoren in derzeit zehn Sprachen mit ihren grundlegenden syntaktischen und semantischen Merkmalen enthält. Unter der URL connective-lex.info ist diese frei verfügbar und erlaubt die Recherche nach Konnektoren in bestimmten Sprachen, nach gewünschter semantischer Lesart und der syntaktischen Kategorie. Internationale Zusammenarbeit (vor allem über das COST Netzwerk ”TextLink”) war eine Voraussetzung für dieses Resultat; der Beitrag des Anakonn Projekts bestand in der Entwicklung der technischen Plattform, dem Überarbeiten und Einpflegen existierender (externer) Lexika, der Entwicklung des englischen Lexikons, der Mitwirkung an der Entwicklung des italienischen und niederländischen Lexikons, und dem weiteren Ausbau des deutschen Lexikons. Korpusbasierte und experimentelle Untersuchung von Konnektoren. Annotierte Daten für Konnektoren und Diskursrelationen in deutschen Texten waren bisher nur in sehr geringen Umfang verfügbar; das Projekt hat im Rahmen des ’Potsdam Commentary Corpus’ (PCC) für 176 Zeitungskommentare solche Annotationen erstellt und sie auch über eine existierende linguistische Datenbank zur Recherche bereitgestellt. Es wurden Erkenntnisse über das linguistische ”Verhalten” von Konnektoren gewonnen, die im Hinblick auf das Anaphorizitätsmerkmal dann noch durch ein Verstehensexperiment mit Versuchspersonen (im Rahmen einer crowdsourcing Studie) weiter vertieft wurden. ’Shallow Discourse Parser’ für das Deutsche. Eine automatische Analyse von Konnektoren und Diskursrelationen war bisher für das Deutsche nicht verfügbar. Das Projekt hat den ersten solchen Parser für die deutsche Sprache entwickelt und verfügbar gemacht. Das zugrunde liegende statistische Modell wurde auf dem oben genannten PCC trainiert und annotiert als end-to-end System Texte mit den darin identifizierten Diskursrelationen und ggf. den zugeordneten Konnektoren.

Publications

 
 

Additional Information

Textvergrößerung und Kontrastanpassung