Rackserver
Final Report Abstract
Ein wichtiger Bestandteil der Forschung im Bereich der Survey-Statistik ist die Entwicklung von Strategien zur Gewinnung präziser Aussagen über Parameter von Grundgesamtheiten. Üblicherweise werden hierzu wiederholt Stichproben gezogen und ausgewertet, um die Inferenz der Schätzungen unter realen Bedingungen approximativ nachbilden zu können. Ein prominentes Beispiel hierfür ist die Forschung zum Zensus 2011 an der Professur für Wirtschafts- und Sozialstatistik. Untersucht wurden im Einzelnen verschiedene Auswahlalgorithmen für Stichproben, der Umgang mit Fehlern im Ziehungsrahmen oder durch fehlende Werte in Erhebungen, die Schätzung von Zielgrößen auf hohen sowie auf niedrigen Aggregationsebenen sowie auch eine geeignete Genauigkeitsmessung für die so erzielten Resultate. Der gesamte sogenannte statistische Produktionsprozess kann dabei als eine Aneinanderreihung nicht-linearer Prozesse begriffen werden, der im Gesamtbild analytisch nicht mehr erfasst werden kann. Um Aussagen über Strategien bei der Kombination der einzelnen Bausteine dieses Prozesses treffen zu können, müssen daher Monte-Carlo-Simulationsmethoden herangezogen werden, in denen die Ungenauigkeit auf jeder einzelnen Prozessstufe abgebildet werden kann. Über die Verteilung der Ergebnisse der einzelnen Simulationsdurchläufe kann dann eine Einschätzung abgegeben werden, welche Kombination der Prozessbausteine verwendet werden sollte und welche Kombinationen sich nachteilig auf die Verlässlichkeit der gewonnenen Schätzergebnisse auswirken. Damit diese Verteilung der Ergebnisse stabil angenähert werden kann, müssen sehr viele Durchläufe der Monte-Carlo-Simulation erfolgen (teilweise mindestens 10.000 Durchläufe pro Kombination aus Zielvariable, Schätzfunktion, Stichproben-Design, Ausfallmechanismus, etc.). Da die Durchläufe unabhängig voneinander sind, können sie oft parallelisiert durchgeführt werden. Erst der mithilfe der DFG beschaffte Rechencluster ermöglichte eine Parallelisierung in dieser Dimension und somit eine Bewältigung solcher Simulationsaufgaben in einer annehmbaren Zeit. Ohne ein entsprechendes Rechencluster wäre die Analyse und Quantifizierung des komplexen Zusammenspiels der genannten Prozessbausteine nicht möglich. Eine Lösung des Rechenproblems über Cloud Computing bzw. Remote Computing (also die Auslagerung auf externe Dienstleister) ist im konkreten Fall aufgrund der Arbeit mit hochsensiblen Mikrodaten der amtlichen Statistik aufgrund datenschutzrechtlicher Anforderungen nicht möglich. Die Arbeit mit hochsensiblen Daten erfolgte auf dem internen Teil des Rechenclusters, wie auch die Zensusforschung. Studierende konnten ihre Forschung für Qualifikationsarbeiten auf dem externen Teil des Rechenclusters durchführen, wo auch weitere nicht-sensible Jobs liefen. Insgesamt resultierten aus der Nutzung des mithilfe der DFG beschafften Rechencluster neue Erkenntnisse zu neuen Stichproben-Allokations-Methoden, zu Kalibrierungs- bzw. Gewichtungs-Methoden sowie Methoden der Small Area Estimation. Ebenso konnten wichtige Kenntnisse gewonnen werden, inwieweit Simulationen sowie auch Mikrosimulationen auf Basis der Bevölkerung Deutschlands auf diesem Rechencluster durchgeführt werden können.
Publications
-
(2014): The impact of sampling designs on small area estimates for business data. Journal of Official Statistics 30 (4), pp. 749-771
Burgard, J.P., Münnich, R.T., Zimmermann, T.
-
(2015): Fast integer-valued algorithms for optimal allocations under constraints in stratified sampling. Computational Statistics and Data Analysis 92, pp. 1-12
Friedrich, U., Münnich, R.T., Vries, S.d., Wagner, M.
-
(2015): Tabellenauswertungen im Zensus unter Berücksichtigung fehlender Werte. AStA Wirtschafts- und Sozialstatistisches Archiv 9 (3-4), pp. 269–304
Münnich, R., Gabler, S., Bruch, C., Burgard, J.P., Enderle, T., Kolb, J.-P., Zimmermann, T.
-
(2016): Frame Correction Modeling with Applications to the German Register-assisted Census 2011. Scandinavian Journal of Statistics 43 (3), pp. 904-920
Dostal, L., Gabler, S., Ganninger, M., Münnich, R.
-
(2016): Outlier Robust Small-Area Estimation Under Spatial Correlation. Scandinavian Journal of Statistics 43 (3), pp. 806-826
Schmid, T., Tzavidis, N., Münnich, R., Chambers, R.
-
(2016): Small area estimation in the German Census 2011. Statistics in Transition and Survey Methodology 17 (1), pp. 25-40. Joint Special Issue: Small Area Estimation, volume II
Münnich, R., Burgard, J.P., Gabler, S., Ganninger, M., Kolb, J.-P.
-
(2017): Nonparametric Small Area Models using Shape-Constrained Penalized B-Splines. Journal of the Royal Statistical Society A 180 (4), pp. 1089-1109
Wagner, J., Münnich, R., Hill, J., Stoffels, J., Udelhoven, T.