Detailseite
(Semi-)Automatisierte thematische Textklassifikation als Basis für korpuslinguistische Mehrwertdienste
Antragsteller
Professor Dr. Gerhard Heyer; Dr. Marc Kupietz; Professor Dr. Alexander Mehler; Privatdozent Dr. Roman Schneider
Fachliche Zuordnung
Angewandte Sprachwissenschaften, Computerlinguistik
Förderung
Förderung seit 2024
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 531750631
Das Vorhaben schließt eine zentrale Lücke empirischer Sprachforschung in den digitalen Geistes-, Sozial- und Bildungswissenschaften. Dies betrifft die bislang fehlende themenbezogene Inhaltserschließung sehr großer Textkorpora. Durch enge Verzahnung von Informatik und Korpuslinguistik werden für höchst heterogene Textsorten und stark variierende Dokumentgrößen differenzierte Klassifikationen durchgeführt. Gegenstand ist das am Leibniz-Institut für Deutsche Sprache beheimatete Deutsche Referenzkorpus DeReKo. Mit derzeit ca. 53 Milliarden Wörtern stellt es die weltweit mit Abstand größte und meistgenutzte Forschungsressource deutschsprachiger Texte dar. Seine angestrebte inhaltliche Klassifikation ist hochrelevant für viele Nutzungsszenarien, angefangen mit der Stichprobenstratifizierung für Fallstudien über die Erstellung vergleichbarer multilingualer Korpora bis hin zur Modellierung sprachlicher Variabilität. Voraussetzung dafür ist eine Stratifizierung nach Dimensionen wie Zeit, Modalität, Textgenre und Thema. Die drei erstgenannten lassen sich typischerweise unmittelbar aus den Quelldaten ermitteln. Dies gilt nicht für die äußerst relevante thematische Domäne. Aufgrund der inhaltlichen Breite der DeReKo-Texte existieren keine geeigneten Ontologien zur thematischen Erschließung. Zudem mangelt es generell an explizit mit thematischen Metadaten ausgezeichneten Trainings- und Testdaten, was den Einsatz überwachter Machine-Learning-Verfahren erheblich einschränkt. Am Beispiel von DeReKo soll daher erstmals eine thematische Klassifikation für Big Corpus Data implementiert und evaluiert werden, die effizient, robust, offen (open source), dynamisch (kein statisches und damit rasch veraltendes Kategorieninventar) und vollständig nachnutzbar ist. Die Hauptziele sind: (i) Semantische Diversität: Es sollen fünf Textklassifikationssysteme abgebildet und integriert werden, so dass Nutzende je nach Anwendungsszenario auf Systeme unterschiedlicher Abstraktheit zurückgreifen können. (ii) Gewährleistung inhaltlicher Offenheit: Neben Normdatenkatalogen wie DDC/UDC werden offene Inhaltsklassifikationen einbezogen. Dies betrifft die Wikipedia-Kategoriensysteme ebenso wie das nicht einzelsprachengebunde Wikidata-Klassensystem. Hierarchische Klassifikatoren werden für dynamische Anwendungsszenarien trainierbar gemacht. (iii) Natural Language Pre-Processing: Zur Entschärfung des Zielkonflikts zwischen Verarbeitungsqualität und -effizienz wird untersucht, wie sich alternative Textvorverarbeitungsroutinen und Frameworks auf Qualität bzw. Zeitaufwand auswirken. (iv) Referenzkorpus-Erschließung: DeReKo wird sowohl auf der Ebene seiner Einzeltexte als auch auf der Ebene von Textabschnitten thematisch erschlossen unter Nutzung der o.g. Klassifikationssysteme. (v) Semantische Suche: Es wird eine Schnittstelle für differenzierte semantische Suchen auf Text(segment)ebene implementiert. Hierfür können alle vorgesehenen Klassifikationssysteme genutzt bzw. kombiniert werden.
DFG-Verfahren
Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)