Detailseite
Projekt Druckansicht

Anaphorizität bei Konnektoren: Von der Korpusanalyse zur lexikalischen Beschreibung und Folgerungen für das Diskursparsing

Fachliche Zuordnung Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung Förderung von 2016 bis 2021
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 323949969
 
Erstellungsjahr 2021

Zusammenfassung der Projektergebnisse

Das Projekt hat sich aus computerlinguistischer Perspektive mit dem Phänomen der Diskurskonnektoren beschäftigt: Wörter, die die Art des inhaltlichen Zusammenhangs (etwa kausal, temporal, kontrastiv) zwischen Satzteilen, Satzen und Textteilen signalisieren. Ein spezielles Augenmerk lag auf möglichen Verarbeitungsunterschieden zwischen solchen Konnektoren, die ein explizit anaphorisches Morphem beinhalten (etwa deswegen oder trotzdem und solchen, die das nicht tun, wie also oder nichtsdestoweniger. Insgesamt gliederte sich die Arbeit in drei Bereiche. Lexikon. Wir haben eine web-basierte Datenbank entwickelt, die Diskurskonnektoren in derzeit zehn Sprachen mit ihren grundlegenden syntaktischen und semantischen Merkmalen enthält. Unter der URL connective-lex.info ist diese frei verfügbar und erlaubt die Recherche nach Konnektoren in bestimmten Sprachen, nach gewünschter semantischer Lesart und der syntaktischen Kategorie. Internationale Zusammenarbeit (vor allem über das COST Netzwerk ”TextLink”) war eine Voraussetzung für dieses Resultat; der Beitrag des Anakonn Projekts bestand in der Entwicklung der technischen Plattform, dem Überarbeiten und Einpflegen existierender (externer) Lexika, der Entwicklung des englischen Lexikons, der Mitwirkung an der Entwicklung des italienischen und niederländischen Lexikons, und dem weiteren Ausbau des deutschen Lexikons. Korpusbasierte und experimentelle Untersuchung von Konnektoren. Annotierte Daten für Konnektoren und Diskursrelationen in deutschen Texten waren bisher nur in sehr geringen Umfang verfügbar; das Projekt hat im Rahmen des ’Potsdam Commentary Corpus’ (PCC) für 176 Zeitungskommentare solche Annotationen erstellt und sie auch über eine existierende linguistische Datenbank zur Recherche bereitgestellt. Es wurden Erkenntnisse über das linguistische ”Verhalten” von Konnektoren gewonnen, die im Hinblick auf das Anaphorizitätsmerkmal dann noch durch ein Verstehensexperiment mit Versuchspersonen (im Rahmen einer crowdsourcing Studie) weiter vertieft wurden. ’Shallow Discourse Parser’ für das Deutsche. Eine automatische Analyse von Konnektoren und Diskursrelationen war bisher für das Deutsche nicht verfügbar. Das Projekt hat den ersten solchen Parser für die deutsche Sprache entwickelt und verfügbar gemacht. Das zugrunde liegende statistische Modell wurde auf dem oben genannten PCC trainiert und annotiert als end-to-end System Texte mit den darin identifizierten Diskursrelationen und ggf. den zugeordneten Konnektoren.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung