Project Details
The Old Bailey Corpus: Vervollständigung und Optimierung der Annotation und Schaffung einer Internetplattform
Applicant
Professor Dr. Magnus Huber
Subject Area
Individual Linguistics, Historical Linguistics
Term
from 2008 to 2012
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 68769634
Ziel des Projekts ist die Erstellung eines linguistisch aufbereiteten, elektronischen Textkorpus des gesprochenen Englisch im 18., 19. und frühen 20. Jh. Dabei wird auf die bereits computerisierten Transkripte von 200.000 Verhandlungen (134 Millionen Wörter) am zentralen Strafgerichtshof in London von 1674 bis 1913 ( Proceedings of the Old Bailey/Central Criminal Court , www.oldbaileyonline.org) zurückgegriffen, die wegen ihres unmittelbaren und dokumentarischen Charakters die gesprochene Sprache vergleichsweise authentisch abbilden und sich daher besonders für linguistische Analysen eignen.In der Kompilierung des Korpus identifiziert und markiert ( taggt ) ein Perl-Skript wörtliche Rede in den Proceedings. Mittels einer speziell entwickelten Software werden dann der Hälfte dieses Materials Sprecherparameter wie Geschlecht oder Alter zugewiesen ( soziobiographisches Markup ). Außerdem erfolgt eine Wortklassenannotation (part of speech tagging) des gesamten Korpus von 1674 bis 1913. Das Old Bailey Corpus wird nach seiner Fertigstellung die umfangreichste diachrone Textsammlung des gesprochenen Englisch darstellen: 134 Millionen part of speech-getaggte Wörter von 1674 bis 1913, ca. 113 Millionen Wörter wörtliche Rede von 1674 bis 1913, 57 Millionen Wörter wörtliche Rede von 1720 bis 1913 soziobiografisch annotiert. Das Korpus wird im Internet frei zugänglich gemacht und kann mit einer maßgeschneiderten webbasierten Korpussoftware online analysiert werden.Das Old Bailey Corpus kann für sprachgeschichtliche Studien dienen, unter anderem in der historischen Soziolinguistik und historischen Textlinguistik. Es eignet sich vor allem für Untersuchungen der Morphologie (z.B. Flexion) und Syntax (Satzstellung), teilweise aber auch der Phonetik und Phonologie (Lautsystem).
DFG Programme
Research Grants