Speech representation - A literary and linguistic corpus study
German Literary and Cultural Studies (Modern German Literature)
Final Report Abstract
Das Projekt beschäftigte sich mit der empirischen Erforschung von Redewiedergabeformen im Deutschen. Im Fokus standen die Typen direkte (Er sagte: „Ich habe Hunger.“), indirekte (Er sagte, er habe Hunger.), freie indirekte (Er war ratlos. Wo sollte er jetzt nur etwas zu essen finden?) und erzählte Wiedergabe (Sie sprachen über das Mittagessen.). Es wurden zwei Hauptergebnisse erarbeitet, die der Forschungsgemeinschaft frei zur Verfügung gestellt werden: 1. Aufwendig manuell nach Redewiedergabeformen annotierte Sprachdaten (Zeitraum: 1840-1920; fiktionale und nicht-fiktionale Texte): a. Kernkorpus „Redewiedergabe“: ca. 490.000 Tokens; Textmaterial balanciert nach Dekaden und fiktional vs. nicht-fiktional; Konsensannotation erstellt auf Grundlage von zwei unabhängigen Annotationen b. Zusatzmaterial: ca. 3 Millionen Tokens zusätzlich annotiertes Material, z.T. mit vereinfachtem Annotationssystem und semi-automatisch 2. Automatische Erkenner, beruhend auf DeepLearning, für vier Typen von Redewiedergabe (direkte, indirekte, erzählte und freie indirekte Wiedergabe) Das umfangreiche Korpus-Material kann zum einen für quantitative Studien zu Redewiedergabeformen – auch im diachronen Verlauf und im Kontrast fiktional vs. nicht-fiktional – verwendet werden. Zum anderen kann es auch als Trainingsmaterial für maschinelles Lernen für die weitere Entwicklung von automatischen Redewiedergabe-Erkennern dienen, die die im Projekt selbst bereits entwickelte Erkenner ergänzen. Die Erkenner können zur automatischen Markierung von Redewiedergabetypen in deutschen Texten verwendet werden, um so quantitative Studien an großen Textmengen zu ermöglichen. Sie wurden während des Projektverlaufs in einer quantitativen Studie zur Verwendung von Redewiedergabeformen in Heftromanen vs. Hochliteratur erfolgreich zur ersten Anwendung gebracht.
Publications
-
(2018): „Annotation and beyond – Using ATHEN Annotation and Text Highlighting Environment“, in: Digital Humanities im deutschsprachigen Raum – Konferenzabstracts, S. 19-21
Krug, Markus / Tu, Ngoc Duyen Tanja / Weimer, Lukas / Reger, Isabella / Konle, Leonard / Jannidis, Fotis / Puppe, Frank
-
(2019): Das Redewiedergabe-Korpus. Eine neue Ressource. In: Sahle, Patrick (Hg.): Digital Humanities: multimedial & multimodal. 6. Tagung des Verbands Digital Humanities im deutschsprachigen Raum e.V. (DHd 2019), Frankfurt am Main, Mainz, 25.3.2019 – 29.3.2019. Konferenzabstracts. Frankfurt am Main: Zenodo. S. 103-106
Brunner, Annelen / Weimer, Lukas / Tu, Ngoc Duyen Tanja / Engelberg, Stefan / Jannidis, Fotis
-
(2019): Deep learning for Free Indirect Representation. In: Preliminary proceedings of the 15th Conference on Natural Language Processing (KONVENS 2019), October 9 – 11, 2019 at Friedrich-Alexander-Universität Erlangen-Nürnberg. München [u.a.]: German Society for Computational Linguistics & Language Technology und Friedrich-Alexander-Universität Erlangen-Nürnberg. S. 241-245
Brunner, Annelen / Tu, Ngoc Duyen Tanja / Weimer, Lukas / Jannidis, Fotis
-
(2019): Was für Enthüllungen! heulte die wohlgekleidete respektable Menge. – Eine korpus-linguistische Untersuchung zur lexikalischen Vielfalt von Redeeinleitern, in: Stefan Engelberg, Christian Fortmann, Irene Rapp (Hrsg.): Rede- und Gedankenwiedergabe in narrativen Strukturen – Ambiguitäten und Varianz, Hamburg: Buske, S. 13-53
Tu, Ngoc Duyen Tanja/Engelberg, Stefan/Weimer, Lukas
-
(2020): Corpus REDEWIEDERGABE, Proceedings of The 12th Language Resources and Evaluation Conference, Marseille, S. 796-805
Brunner, Annelen / Engelberg, Stefan / Jannidis, Fotis / Tu, Ngoc Duyen Tanja / Weimer, Lukas
-
(2020): Redewiedergabe in Heftromanen und Hochliteratur. In: Schöch, Christof (Hg.): Digital Humanities: Spielräume. 7. Tagung des Verbands Digital Humanities im deutschsprachigen Raum e.V. (DHd 2020), Paderborn, 3.3.2020 – 6.3.2020. Konferenzabstracts. Paderborn: Zenodo. S. 190-194
Brunner, Annelen / Jannidis, Fotis / Engelberg, Stefan / Tu, Ngoc Duyen Tanja / Weimer, Lukas
-
(2020): To BERT or not to BERT – Comparing Contextual Embeddings in a Deep Learning Architecture for the Automatic Recognition of four Types of Speech, Thought and Writing Representation, Proceedings of the 5th Swiss Text Analytics Conference (SwissText) & 16th Conference on Natural Language Processing (KONVENS), Zurich, Switzerland, June 23-25, 2020
Brunner, Annelen/Tu, Ngoc Duyen Tanja/Weimer, Lukas/Jannidis, Fotis