Anaphoricity in connectives: From corpus analysis to lexical description and consequences for discourse parsing
Final Report Abstract
Das Projekt hat sich aus computerlinguistischer Perspektive mit dem Phänomen der Diskurskonnektoren beschäftigt: Wörter, die die Art des inhaltlichen Zusammenhangs (etwa kausal, temporal, kontrastiv) zwischen Satzteilen, Satzen und Textteilen signalisieren. Ein spezielles Augenmerk lag auf möglichen Verarbeitungsunterschieden zwischen solchen Konnektoren, die ein explizit anaphorisches Morphem beinhalten (etwa deswegen oder trotzdem und solchen, die das nicht tun, wie also oder nichtsdestoweniger. Insgesamt gliederte sich die Arbeit in drei Bereiche. Lexikon. Wir haben eine web-basierte Datenbank entwickelt, die Diskurskonnektoren in derzeit zehn Sprachen mit ihren grundlegenden syntaktischen und semantischen Merkmalen enthält. Unter der URL connective-lex.info ist diese frei verfügbar und erlaubt die Recherche nach Konnektoren in bestimmten Sprachen, nach gewünschter semantischer Lesart und der syntaktischen Kategorie. Internationale Zusammenarbeit (vor allem über das COST Netzwerk ”TextLink”) war eine Voraussetzung für dieses Resultat; der Beitrag des Anakonn Projekts bestand in der Entwicklung der technischen Plattform, dem Überarbeiten und Einpflegen existierender (externer) Lexika, der Entwicklung des englischen Lexikons, der Mitwirkung an der Entwicklung des italienischen und niederländischen Lexikons, und dem weiteren Ausbau des deutschen Lexikons. Korpusbasierte und experimentelle Untersuchung von Konnektoren. Annotierte Daten für Konnektoren und Diskursrelationen in deutschen Texten waren bisher nur in sehr geringen Umfang verfügbar; das Projekt hat im Rahmen des ’Potsdam Commentary Corpus’ (PCC) für 176 Zeitungskommentare solche Annotationen erstellt und sie auch über eine existierende linguistische Datenbank zur Recherche bereitgestellt. Es wurden Erkenntnisse über das linguistische ”Verhalten” von Konnektoren gewonnen, die im Hinblick auf das Anaphorizitätsmerkmal dann noch durch ein Verstehensexperiment mit Versuchspersonen (im Rahmen einer crowdsourcing Studie) weiter vertieft wurden. ’Shallow Discourse Parser’ für das Deutsche. Eine automatische Analyse von Konnektoren und Diskursrelationen war bisher für das Deutsche nicht verfügbar. Das Projekt hat den ersten solchen Parser für die deutsche Sprache entwickelt und verfügbar gemacht. Das zugrunde liegende statistische Modell wurde auf dem oben genannten PCC trainiert und annotiert als end-to-end System Texte mit den darin identifizierten Diskursrelationen und ggf. den zugeordneten Konnektoren.
Publications
-
(2018). Constructing a Lexicon of Dutch Discourse Connectives. Computational Linguistics in the Netherlands Journal 8:163–175
Bourgonje, P., Hoek, J., Evers-Vermeul, J., Redeker, G., Sanders, T., and Stede, M.
-
(2018). Constructing a lexicon of English discourse connectives. In Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, pages 360–365, Melbourne, Australia
Das, D., Scheffler, T., Bourgonje, P., and Stede, M.
-
(2018). Identifying explicit discourse connectives in German. In Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, pages 327–331, Melbourne, Australia
Bourgonje, P. and Stede, M.
-
(2018). Primary and secondary discourse connectives: definitions and lexicons. Dialogue and Discourse 9(1):50–78
Danlos, L., Rysova, K., Rysova, M., and Stede, M.
-
(2019). Connective-lex: A webbased multilingual lexical resource for connectives. Discours. Revue de linguistique, psycholinguistique et informatique Vol. 24
Stede, M., Scheffler, T., and Mendes, A.
-
(2020). Exploiting a lexical resource for discourse connective disambiguation in German. In Proceedings of the 28th International Conference on Computational Linguistics, pages 5737–5748, Barcelona, Spain (Online)
Bourgonje, P. and Stede, M.