Erstellung einer lexikalischen Datenbank für die psychologische und linguistische Forschung mit experimenteller Validierung durch Blickbewegungen beim Lesen
Final Report Abstract
Die zunehmende Vielfalt verfügbarer elektronischer Textressourcen ermöglicht eine Verfeinerung und Ausweitung psychologischer und linguistischer Forschungsfragen. Für die Reichweite einer Datenbank ist neben der Anzahl der zur Verfügung gestellter statistischer Variablen, der Zugänglichkeit und der Bedienbarkeit vor allem die Qualität der dahinerliegenden Korpora entscheidend. Ein qualitativ hochwertiges Korpus zeichnet sich unter anderem durch eine gute Annotation der Wörter und eine hohe Validität der korpusbezogenen lexikalischen und sublexikalischen Statistiken aus. Das Projekt Erstellung einer lexikalischen Datenbank für die psychologische und linguistische Forschung mit experimenteller Validierung durch Blickbewegungen beim Lesen hat im ersten Projektabschnitt auf der Grundlage des Kernkorpus des Digitalen Wörterbuchs der deutschen Sprache (DWDS) die lexikalischen Datenbank dlexDB (http://dlexdb.de) erstellt. Neben Frequenzdaten auf superlexikalischer (n-Gramme), sublexikalischer (Morphemund Silbenabfolge) und lexikalischer Ebene stehen auch speziellere Variablen wie Dokumentfrequenz oder orthographische Nachbarschaft zur Verfügung. Im zweiten Projektabschnitt konnten wesentliche Verbesserungen der linguistischen Annotationen erzielt werden, allerdings konnte eine angestrebte hierarchische morphologische Analyse nicht vollständig realisiert werden. Statt einer semiautomatischen Rechtschreibkorrektur des DWDS haben wir in Zusammenarbeit mit Dr. Sascha Schroeder vom Max-Planck-Institut für Bildungsforschung mit chilldLex eine praktisch fehlerfreie lexikalischen Datenbank erstellt, die die Schriftsprache abbildet, mit der Kinder im Leseerwerb konfrontiert sind. Wir zeigen anhand des typebasierten Maßes der Wortnachbarschaft exemplarisch die Auswirkungen einer Fehlerbereinigung. Die statistische Validität einer Datenbank ist abhängig von der einer Textgrundlage, die der eigentlichen individuellen Spracherfahrung am nächsten kommt. Ein häufig verwendetes Maß für die Validität eines Korpus ist die Worthäufigkeit, die in der Worterkennung typischerweise über 30 Prozent der Varianz erklärt. Aktuelle Untersuchungen belegen anhand von Worthäufigkeiten aus Filmuntertiteln, dass rein schriftsprachliches Material weniger geeignet für die Erklärung der Wortverarbeitung ist, als solches, das Belege gesprochener Sprache inkorporiert. Um diesen Befunden gerecht zu werden, haben wir in einem ersten Schritt eine eigene Version eines Filmuntertitelkorpus erstellt. Parallel haben wir die zeitliche Stratifizierung und die Ausgewogenheit der Genres des DWDS auf ihren Nutzen überprüft. Wir finden für ausgesuchte alte und neue Wörter eine Sensibilität von Personenalter auf die jeweiligen Wortfrequenzen. In einem zweiten Schritt vergleichen wir die Perfomance von Filmuntertiteln mit verschiedenen Korpora. Die ähnliche hohe performance eines Zeitungskorpus zeigt, dass nicht die Nähe zur gesprochenen Sprache entscheidend ist, sondern der emotionale Gehalt der Sprache. Den Befund aus Blickbewegungsanalysen, dass nicht die Tokenfrequenz des nächsten Wortes, sondern die Lemmafrequenz entscheidend ist, konnten wir in zwei kontrollierten Experimenten nicht bestätigen. Zusammenfassend belegt dieses Projekt die Bedeutung großer Textkorpora für die psycholinguistische Forschung. Es zeigt verschiedene Möglichkeiten, die Qualität eines Korpus zu erhöhen, indem Validätskriterien der Korpusgrundlage wie Annotation, Rechtschreibprüfung und Anpassung der Textgrundlage an Personeneigenschaften beachtet werden.
Publications
- dlex—eine lexikalische Datenbank für die psychologische und linguistische Forschung. Psychologische Rundschau, 62(1):10-20, 2011
Julian Heister, Kay-M. Würzner, K., Johannes Bubenzer, Edmund Pohl, Thomas Hanneforth, Alexander Geyken, & Reinhold Kliegl
(See online at https://dx.doi.org/10.1026/0033-3042/a000029) - „Analysing large datasets of eye movements during reading“ In James S. Adelman (Hrsg.) Visual word recognition. Vol. 2: Meaning and context, individuals and development (S. 102–130). Hove, UK: Psychology Press, 2012
Julian Heister, Kay-M. Würzner & Reinhold Kliegl
- „Comparing word frequencies from different German text corpora“ In Kay-M. Würzner & Edmund Pohl (Hrsg.) Lexical resources in psycholinguistic research (S. 27– 44). Potsdam, Universitätsverlag, 2012
Julian Heister & Reinhold Kliegl
- „Multi-threaded composition of finite-state automata“ Proceedings of the 11th International Conference on Finite State Methods and Natural Language Processing (S. 157–161). Association for Computational Linguistics, 2013
Bryan Jurish & Kay-M. Würzner
- „Parsing Morphologically Complex Words“ Proceedings of the 11th International Conference on Finite State Methods and Natural Language Processing (S. 39–43). Association for Computational Linguistics, 2013
Kay-M. Würzner & Thomas Hanneforth
- „Word and Sentence Tokenization with Hidden Markov Models“ Journal for Language Technology and Computational Linguistics, 28(2): 61–83, 2013
Bryan Jurish & Kay-M. Würzner
- „Altersgruppeneffekte in childLex“ Spektrum Patholinguistik 7: 123– 131, 2014
Kay-M. Würzner, Julian Heister & Sascha Schroeder
- „For a fistful of blogs: Discovery and comparative benchmarking of republishable German content“ Workshop Proceedings of the 12th Edition of the KONVENS (S. 2–10). Universitätsverlag Hildesheim, 2014
Adrien Barbaresi & Kay-Michael Würzner
- „A hybrid approach to grapheme-phoneme conversion“ Proceedings of the 12th International Conference on Finite State Methods and Natural Language Processing. Association for Computational Linguistics, 2015
Kay-M. Würzner & Bryan Jurish
- „childLex: a lexical database of German read by children“ Behavior Research Methods, 47(4):1085–1094, 2015
Sascha Schroeder, Kay-M. Würzner, Julian Heister, Alexander Geyken & Reinhold Kliegl
(See online at https://doi.org/10.3758/s13428-014-0528-1) - „childLex: Eine lexikalische Datenbank zur Schriftsprache für Kinder im Deutschen“ Psychologische Rundschau, 66(3): 155–165, 2015
Sascha Schroeder, Kay-M. Würzner, Julian Heister, Alexander Geyken & Reinhold Kliegl
(See online at https://dx.doi.org/10.1026/0033-3042/a000275) - „Das Wort in der Sprachtechnologie“ In Ulrike Haß und Petra Storjohann (Hrsg.) Handbuch „Wort und Wortschatz“ (Handbücher Sprachwissen 3, S. 297–319). Berlin: De Gruyter, 2015
Lothar Lemnitzer & Kay-Michael Würzner
(See online at https://dx.doi.org/10.1515/9783110296013-013) - „Dsolve - Morphological segmentation for German using conditional random fields“ Proceedings of the Fourth International Workshop on Systems and Frameworks for Computational Morphology (volume 537 of Communications in Computer and Information Science, S. 95–103). Springer, 2015
Kay-M. Würzner & Bryan Jurish
(See online at https://dx.doi.org/10.1007/978-3-319-23980-4_6)