Project Details
Projekt Print View

Rackserver

Subject Area Economics
Term Funded in 2014
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 244616310
 
Final Report Year 2018

Final Report Abstract

Ein wichtiger Bestandteil der Forschung im Bereich der Survey-Statistik ist die Entwicklung von Strategien zur Gewinnung präziser Aussagen über Parameter von Grundgesamtheiten. Üblicherweise werden hierzu wiederholt Stichproben gezogen und ausgewertet, um die Inferenz der Schätzungen unter realen Bedingungen approximativ nachbilden zu können. Ein prominentes Beispiel hierfür ist die Forschung zum Zensus 2011 an der Professur für Wirtschafts- und Sozialstatistik. Untersucht wurden im Einzelnen verschiedene Auswahlalgorithmen für Stichproben, der Umgang mit Fehlern im Ziehungsrahmen oder durch fehlende Werte in Erhebungen, die Schätzung von Zielgrößen auf hohen sowie auf niedrigen Aggregationsebenen sowie auch eine geeignete Genauigkeitsmessung für die so erzielten Resultate. Der gesamte sogenannte statistische Produktionsprozess kann dabei als eine Aneinanderreihung nicht-linearer Prozesse begriffen werden, der im Gesamtbild analytisch nicht mehr erfasst werden kann. Um Aussagen über Strategien bei der Kombination der einzelnen Bausteine dieses Prozesses treffen zu können, müssen daher Monte-Carlo-Simulationsmethoden herangezogen werden, in denen die Ungenauigkeit auf jeder einzelnen Prozessstufe abgebildet werden kann. Über die Verteilung der Ergebnisse der einzelnen Simulationsdurchläufe kann dann eine Einschätzung abgegeben werden, welche Kombination der Prozessbausteine verwendet werden sollte und welche Kombinationen sich nachteilig auf die Verlässlichkeit der gewonnenen Schätzergebnisse auswirken. Damit diese Verteilung der Ergebnisse stabil angenähert werden kann, müssen sehr viele Durchläufe der Monte-Carlo-Simulation erfolgen (teilweise mindestens 10.000 Durchläufe pro Kombination aus Zielvariable, Schätzfunktion, Stichproben-Design, Ausfallmechanismus, etc.). Da die Durchläufe unabhängig voneinander sind, können sie oft parallelisiert durchgeführt werden. Erst der mithilfe der DFG beschaffte Rechencluster ermöglichte eine Parallelisierung in dieser Dimension und somit eine Bewältigung solcher Simulationsaufgaben in einer annehmbaren Zeit. Ohne ein entsprechendes Rechencluster wäre die Analyse und Quantifizierung des komplexen Zusammenspiels der genannten Prozessbausteine nicht möglich. Eine Lösung des Rechenproblems über Cloud Computing bzw. Remote Computing (also die Auslagerung auf externe Dienstleister) ist im konkreten Fall aufgrund der Arbeit mit hochsensiblen Mikrodaten der amtlichen Statistik aufgrund datenschutzrechtlicher Anforderungen nicht möglich. Die Arbeit mit hochsensiblen Daten erfolgte auf dem internen Teil des Rechenclusters, wie auch die Zensusforschung. Studierende konnten ihre Forschung für Qualifikationsarbeiten auf dem externen Teil des Rechenclusters durchführen, wo auch weitere nicht-sensible Jobs liefen. Insgesamt resultierten aus der Nutzung des mithilfe der DFG beschafften Rechencluster neue Erkenntnisse zu neuen Stichproben-Allokations-Methoden, zu Kalibrierungs- bzw. Gewichtungs-Methoden sowie Methoden der Small Area Estimation. Ebenso konnten wichtige Kenntnisse gewonnen werden, inwieweit Simulationen sowie auch Mikrosimulationen auf Basis der Bevölkerung Deutschlands auf diesem Rechencluster durchgeführt werden können.

Publications

 
 

Additional Information

Textvergrößerung und Kontrastanpassung