Detailseite
Projekt Druckansicht

Computerlinguistische Implementierung einer großen, robusten Grammatik für Urdu/Hindi im Kontext paralleler Grammatikentwicklung

Antragstellerin Professorin Dr. Miriam Butt
Fachliche Zuordnung Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung Förderung von 2009 bis 2014
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 77719491
 
In diesem Projekt sollen eine computerlinguistische Grammatik und begleitende Ressourcen (Dependenzbank, Morphologie) für Urdu/Hindi entwickelt werden. ‘Urdu’ und ‘Hindi’ bezeichnen dieselbe Sprache, deren Sprecher aber durch eine politische Grenze getrennt sind und sich unterschiedlicher Schriftsysteme bedienen (ähnlich wie in dem ehemaligen Jugoslawien, wo aus Serbokroatisch aus politischen Gründen 3 Sprachen wurde: Bosnisch/Serbisch/Kroatisch). Urdu/Hindi ist zur Zeit die dritt meist gesprochene Sprache der Welt, es fehlen jedoch computerlinguistische Ressourcen für eine robuste maschinelle Verarbeitung. Hauptforschungsfragen sind: 1) Inwieweit lassen sich etablierte Methoden zur multilingualen Grammatikentwicklung, die hauptsächlich in bezug auf europäische Sprachen und dem Japanischen entwickelt wurden, auf die südasiatischen Sprachstrukturen des Urdu/Hindi anwenden? Zugrundegelegt wird die Methodologie des Par- Gram (Parallel Grammar) Projektes. 2) Inwieweit können Urdu und Hindi tatsächlich mittels derselben Analysen und Technologien verarbeitet werden? 3) Untersuchung und Anwendung statistischer Lernmethoden für Desambiguierungsverfahrung und eine Beschleunigung der Verarbeitungszeit.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung