The Old Bailey Corpus: Vervollständigung und Optimierung der Annotation und Schaffung einer Internetplattform
Final Report Abstract
Das Old Bailey Corpus (OBC) ist ein linguistisch annotiertes, elektronisches Textkorpus des gesprochenen Englisch von 1720 bis 1913. Die textliche Grundlage dafür stellen die als Proceedings of the Old Bailey/Central Criminal Court veröffentlichten Transkripte von 200.000 Verhandlungen (134 Millionen Wörter) am zentralen Strafgerichtshof in London dar, die wegen ihres unmittelbaren und dokumentarischen Charakters die gesprochene Sprache vergleichsweise authentisch abbilden. In einer elektronischen Version der Proceedings wurde im Vorgängerprojekt mithilfe von eigens dafür entwickelten Skripten wörtliche Rede in den Transkripten identifiziert und markiert ("getaggt"). Mit Hilfe einer speziell entwickelten Software wiesen dann Projekthilfskräfte einem Teilkorpus (zum Zeitpunkt des Folgeantrags noch ungleich über das Gesamtkorpus verteilt) Sprecherparameter wie Geschlecht oder Alter semiautomatisch zu ("soziobiographisches Markup"). Damit stellte das Old Bailey Pilotkorpus das umfangreichste soziobiografisch detailliert annotierte diachrone Korpus des Englischen dar und die Fachwelt zeigte großes Interesse an dieser Ressource. Im Fortsetzungsprojekt wurde zum Einen die Vervollständigung und Optimierung des Markups des OBC unternommen, das im Vorgängerprojekt erstellt wurde. Drei Teilziele wurden hier verfolgt: 1. Vervollständigung der Annotation des OBC im Sinne einer gleichmäßigen Auffüllung der Dekaden auf 1 Million Wörter wörtlicher Rede. Durch die Annotation zusätzlicher Proceedings wurde das OBC auf 750.000 Wörter/Dekade erweitert, insgesamt 13,9 Millionen Wörter gesprochenes Englisch. Für dieses Material sind als Metadaten im XML-Format soziobiografische Sprecherparameter wie Alter, Geschlecht, Beruf, soziale Klasse, der pragmatische Parameter der Rolle im Gerichtssaal sowie sprecherunabhängige textuelle Parameter wie Jahr oder Zeitraum der Äußerung, Gerichtsstenograf, Drucker, Verleger der Proceedings hinzugefügt worden. Weitere 5,2 Millionen Wörter können optional zur Analyse hinzugezogen werden. 2. Optimierung des Skriptes zur vollautomatischen Annotation der Proceedings, so dass neben dem eigentlichen OBC auch ein die Gesamt-Proceedings umfassendes Korpus mit Sprecherannotation (134 Millionen Wörter) zur Verfügung steht. Während des Vorgängerprojektes wurde deutlich, dass ein soziobiografisches Tagging zu einem gewissen Grade auch vollautomatisch möglich ist. Natürlich müssen bei solch einem Verfahren im Vergleich zur semiautomatischen Annotation mit ihrem hohen Einsatz an Projekthilfskräften gewisse Einschränkungen in der Zuweisungsgenauigkeit und der Vollständigkeit der soziobiografischen Parameter hingenommen werden. Doch steht diesen Einschränkungen ein immenser Gewinn an annotiertem Textmaterial gegenüber. Das Skript zur vollautomatischen Annotation wurde ergänzt und verbessert, so dass nun auch soziobiografisch annotierte Proceedings zur Verfügung stehen. 3. Part-of-speech (POS) Tagging des OBC. Das Korpus wurde einem automatischen POS-Tagging (CLAWS, Tagset 7, ucrel.lancs.ac.uk/claws) unterzogen. Da CLAWS für das heutige Englisch entwickelt wurde, mussten Taggingfehler durch Stichproben ermittelt und dann global berichtigt werden. In diesem Schritt wurden auch Fehler berichtigt, die bei der Überführung der gedruckten Proceedings in ein elektronisches Format entstanden sind. Zum Anderen wurde eine Internetplattform geschaffen, die online korpuslinguistische Untersuchungen am OBC ermöglicht und dieses so der wissenschaftlichen Öffentlichkeit global zugänglich macht. Das Korpus steht nun als Open Access auf einem Server des Hochschulrechenzentrums Gießen zur Verfügung und kann entweder heruntergeladen oder online durchsucht werden (www.uni-giessen.de/oldbaileycorpus). Durch die Möglichkeit der Verwendung regulärer Ausdrücke (RegEx) und/oder der POS-getaggten Korpusversion können sehr komplexe Suchen getätigt werden. Innovativ ist, dass jede Konkordanzzeile alle soziobiografischen, pragmatischen und textuellen Parameter der jeweiligen Äußerung anzeigt, was eine spätere Analyse des Materials sehr vereinfacht.
Publications
- 2007. "The Old Bailey Proceedings, 1674-1834. Evaluating and annotating a corpus of 18th- and 19th-century spoken English". Meurman-Solin, Anneli & Nurmi, Arja (eds.) Annotating Variation and Change (Studies in Variation, Contacts and Change in English 1)
Huber, Magnus
- 2010. "Trial Proceedings as a source of spoken English. A critical evaluation based on the Proceedings of the Old Bailey, 1674-1913". Anglistentag 2009 Klagenfurt. Proceedings. Trier: Wissenschaftlicher Verlag Trier, 65-78
Huber, Magnus