Detailseite
Generate-IT. LLM-Generierte Texte auf Italienisch: Eine Linguistische Studie
Antragstellerin
Professorin Dr. Anna-Maria De Cesare Greenwald
Fachliche Zuordnung
Einzelsprachwissenschaften, Historische Linguistik
Förderung
Förderung seit 2024
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 550431710
Das Aufkommen von großen Sprachmodellen (LLMs) wie GPT-3.5 hat unsere Fähigkeit, menschenähnliche Texte in einer Vielzahl von Sprachen, darunter auch Italienisch, zu generieren, vollständig revolutioniert. Mehrere Studien – hauptsächlich über Englisch – behaupten oder zeigen, dass LLM-generierte Outputs qualitativ hochwertige Texte sind, die in vielerlei Hinsicht mit von Menschen geschriebenen Texten vergleichbar und von ihnen nicht zu unterscheiden sind. Gleichzeitig wurde beobachtet, dass LLM-generierte Texte unter einer "algorithmischen Verzerrung" leiden können und sogar Muster und Strukturen enthalten können, die dem Englischen ähnlich sind. Englische "Fingerabdrücke" in generierten italienischen Texten sind nicht überraschend: In LLMs wie den GPT-Suiten sind englische Texte in den Trainingsdaten überrepräsentiert. In Anbetracht dieser Situation stellen sich viele Forschungsfragen im Bereich der Linguistik, insbesondere zu den Merkmalen von LLM-generierten Texten in italienischer Sprache (und anderen Sprachen). Eine erste Reihe von Fragen betrifft den Einfluss des Englischen auf diese Texte: Welche Formen können die oben erwähnten "Fingerabdrücke" annehmen, wie häufig sind sie, und wie beständig erscheinen sie in den Ergebnissen von LLMs, die auf Datensätzen trainiert wurden, in denen englische Texte unterschiedlich gewichtet sind? Eine zweite wichtige Frage ist, ob wir Zeugen der Entstehung einer neuen Sprachvarietät in der Architektur des zeitgenössischen Italienischen sind und ob diese Varietät im Vergleich zu von Menschen verfassten Texten aufgrund der algorithmischen Verzerrung, die für LLMs typisch ist, verarmt und vereinfacht erscheint. Das Ziel des DFG-projekts "Generate-IT. LLM-Generierte Texte auf Italienisch: Eine Linguistische Studie" soll diese offenen und aktuellen Fragen beantworten, indem es die Eigenschaften von LLM-generierten Texten in Italienisch beschreibt und erklärt. Das Projekt wird sich auch mit theoretischen Fragen befassen, insbesondere mit der Notwendigkeit, eine neue Dimension der Sprachvariation zu berücksichtigen, die mit dem Medium zusammenhängt, das zur Sprachproduktion verwendet wird (künstliche neuronale Netze). Ein wichtiger Aspekt ist die Art der linguistischen Merkmale, die für diese Dimension der Sprachvariation relevant sind. Diese Fragen werden durch die Durchführung einer empirischen Studie auf der Grundlage von selbst zusammengestellten repräsentativen Korpora von LLM-generierten Texten und vergleichbaren Korpora von Menschen geschriebener Texte behandelt. Insgesamt zielt das DFG-Projekt darauf ab, einen neuen, dynamischen und innovativen Forschungszweig im Bereich der (italienischen) Linguistik zu entwickeln. Es wird die Forschung zu generierten Texten ergänzen, die in benachbarten Bereichen durchgeführt wird (insbesondere in der Computerlinguistik und der natürlichen Spracherzeugung), und es wird den Weg für zukünftige interdisziplinäre Studien zwischen Linguisten und LLM-Entwicklern ebnen.
DFG-Verfahren
Sachbeihilfen