Actionality classes and cross-linguistic coding tendencies. Typological research and development of an analysis software tool
Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing
Final Report Abstract
Die Studien zu insgesamt 30 europäischen und außereuropäischen Sprachen liefern Evidenz für die Gültigkeit von Shannons Codierungstheorem und des Zipfschen Gesetzes in natürlichen Sprachen. Die Studien zeigen die Relevanz von lexikalischer Information für Verarbeitung, auch für das Verstehen, natürlicher Sprachen. Es besteht eine Interaktion von lexikalischer Information, Codierung und Form: Shannon Information ist ein lexikalisches Verb-Feature und (i) erklärt crosslinguistische Codierungsasymmetrien bei Verbaspekt und ist damit ein Prädiktor der Verbform, (ii) ist als semantisches Feature für Sprachverarbeitung relevant. Wenn ein Verb beispielsweise den Default-Aspekt „Perfektiv“ hat, werden seine Imperfektiv-Verbformen im Allgemeinen weniger lexikalische Information tragen und kürzer sein als die Imperfektiv-Formen, i.e., die Nicht-Default-Formen. Lexikalische Information eines sprachlichen Zeichens basiert auf seiner Wahrscheinlichkeit, entweder als Unigramm oder als Surprisal, i.e., der Wahrscheinlichkeit in einem Kontext. In diesem Projekt sind Kontexte eines Zeichens (i) satzintern, nicht-semantisch und bestehen aus terminalen Symbolen, i.e., n-Grammen von Wortformen, oder nicht-terminalen Symbole, i.e., Wortarten (POS-Tags), Lemmata, Dependenzrelationen, oder (ii) satzübergreifend, semantisch und bestehen aus Topiks. Überraschend zeigt sich, dass kleine n-Gramm-Kontexte (Uni-, Bi- und Trigramme) als Kontexte für die Fragestellungen des Projekts gewinnbringender als Dependenzrelationen sind. Vielversprechend ist das in diesem Projekt entwickelte Topic Context Model, das lexikalische Information aus satzübergreifenden semantischen Kontexten eines Zielworts berechnet. Semantische Kontexte für lexikalischer Information werden, so lautet die Vorhersage, insbesondere für Anwendungen des Information/ Text Retrieval eine wichtige Rolle spielen. Die Konkatenation der Kontexttypen in einem optimalen Kontextmodell ist eine Aufgabe künftiger Studien und Experimente. https://www.scientia.global/professor-gerhard-heyer-dr-michael-richter-models-for-understanding-language/
Publications
- (2018). Aspect coding asymmetries of verbs: The case of Russian. In Adrien Barbaresi, Hanno Biber, Friedrich Neubarth, Rainer Osswald (eds.), KONVENS 2018. Proceedings of the 14th Conference on Natural Language Processing, 34 – 39
Giuseppe Celano, Michael Richter, Rebecca Voll, Gerhard Heyer
(See online at https://doi.org/10.1553/0x003a12bd https://www.oeaw.ac.at/fileadmin/subsites/academiaecorpora/PDF/konvens18_05.pdf) - (2019). Aspectual coding asymmetries: predicting aspectual verb lengths by the effects frequency and information content. Topics in Linguistics (20) 2, 54 – 66
Michael Richter, Giuseppe Celano
(See online at https://doi.org/10.2478/topling-2019-0009) - (2019). Interaction of Information Content and Frequency as predictors of verbs' lengths. In Witold Abramowicz, Rafael Corchuelo (eds.), Business Information Systems. 22nd International Conference, BIS 2019, Seville, Spain, June 26–28, 2019, Proceedings, Part I, (=Lecture Notes in Business Information Processing 353). 271 – 282, Springer
Michael Richter, Yuki Kyogoku, Max Kölbl
(See online at https://doi.org/10.1007/978-3-030-20485-3_21) - (2019). Predicting default and non-default aspectual coding: Impact and density of information features. Proceedings of the 3rd Workshop on Natural Language for Artificial Intelligence co-located with the 18th International Conference of the Italian Association for Artificial Intelligence (AIIA 2019)
Michael Richter, Tariq Yousef
- (2020) Information from topic contexts: the prediction of aspectual coding of verbs in Russian. Proceedings of the Second Workshop on Computational Research in Linguistic Typology. Association for Computational Linguistics Workshop at EMNLP 2020
Michael Richter, Tariq Yousef