Project Details
Verstetigung des Zentrums für die Langzeitarchivierung germanistischer Forschungsprimärdaten am Institut für Deutsche Sprache
Applicant
Professor Dr. Ludwig Eichinger
Subject Area
General and Comparative Linguistics, Experimental Linguistics, Typology, Non-European Languages
Term
from 2011 to 2017
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 188379364
Das geplante Projekt hat die Etablierung einer einheitlichen Infrastruktur für die nachhaltige Bereitstellung von Forschungsprimärdaten aus der germanistischen Linguistik am Institut für Deutsche Sprache (IDS) zum Ziel. Damit sollen der Forschungsgemeinschaft zum einen eine empirische Basis von Primärdaten und Arbeitsmaterialien sowie eine zentrale Plattform zur Nutzbarmachung ebendieser zur Verfügung gestellt werden. Zum anderen sollen datentechnische, dokumentatorische, rechtliche Standards und Best-Practice-Richtlinien für die nachhaltige Archivierung und Verfügbarmachung von sprachwissenschaftlichen Primärdaten entwickelt werden, welche im IDS erprobt und optimiert werden und deren Anwendbarkeit für die Korpusaufbereitung in anderen Forschungsinstitutionen sichergestellt werden soll. Im Rahmen des Vorhabens soll ein einheitliches Portal zum Zwecke der Nachnutzung von Forschungsdaten entstehen, innerhalb dessen die am IDS bereits bestehenden Repositorien, die in den einzelnen Abteilungen und Bereichen verwaltet werden, nachhaltig und barrierefrei zugänglich gemacht werden. Sie umfassen die "Korpora" genannten Sammlungen von Texten sowie von Daten gesprochener Sprache und die elektronischen Lexika. Die Daten selbst verbleiben in den einzelnen Abteilungen, wo die entsprechenden Ressourcen gemäß bereichsspezifischer Expertise kontinuierlich bearbeitet und erweitert werden. In dem auf sechs Jahre angelegten Projekt sollen am IDS in einer ersten Phase zunächst die institutionellen und technischen Grundlagen für eine Infrastruktur geschaffen werden, um digitale Forschungsprimärdaten aus der germanistischen Sprachwissenschaft in einer für externe Nutzer aus dem Bereich der Wissenschaft einheitlichen Infrastruktur nachhaltig bereitstellen zu können. Hierfür soll ein Portal aufgebaut werden, das die umfangreichen Datensammlungen des IDS zusammenführt und einen zentralen Einstiegspunkt in die Datensammlungen bietet. Dazu sollen die Metadaten zugänglich gemacht und vom Portal aus auf die Ressourcen in den Repositorien der Datengeber verwiesen werden. Eine Kontrolle über den Zugriff der Daten liegt bei den Datengebern. Es soll des Weiteren die Möglichkeit geschaffen werden, einzelne Datensätze oder auch ganze Repositorien für Zwecke der Langzeitarchivierung zentral abzulegen. So können Datengeber beispielsweise Zwischenversionen oder Momentaufnahmen einer Datensammlung im Repositorium ablegen und so in die zentrale Langzeitarchivierung überführen. Die bei der Bearbeitung dieser Entwicklungsaufgaben anfallenden Arbeitsschritte und Entscheidungen werden auf einer kanonischen Basis, d.h. durch die Entwicklung von potenziell generalisierbaren Best-Practice-Richtlinien und Standards gelöst, die im Austausch und unter Berücksichtigung aktueller nationaler und übernationaler Entwicklungen im Bereich der Verfügbarmachung von Sprachressourcen erarbeitet werden. In einer zweiten Projektphase, d.h. ab dem vierten Jahr, sollen dann auch Repositorien und Korpora anderer Forschungseinrichtungen und externer Einzelwissenschaftler eingebunden werden. In diese zweite Entwicklungsphase fällt dann ebenfalls die Erarbeitung fortgeschrittener Konzepte, um divergierende Primärdatenformate zu erfassen, wie sie beispielsweise bei Fragebogenerhebungen oder im Zuge anderer, im IDS nicht repräsentierter linguistischer Untersuchungsmethoden entstehen. Obwohl dieses Projekt sich auf die am IDS gesammelten Ressourcen aus der germanistischen Linguistik konzentriert, weist es dennoch auch einen prototypischen Charakter auf. Dieser besteht dergestalt, dass die in den anderen Philologien am weitesten verbreiteten Datentypen, nämlich (1) linguistische Korpora geschriebener Sprache, (2) Sammlungen gesprochener Sprache, d.h. insbesondere transkribierte und ggf. annotierte Audio- und/oder Videodaten, sowie (3) elektronische Wörterbücher und lexikalische Informationssysteme, Gegenstand des Projektes sind und somit die Ergebnisse auf andere sprachwissenschaftliche Fächer übertragbar wären.
DFG Programme
Research data and software (Scientific Library Services and Information Systems)