Robust and efficient multiple imputation of complex data sets
Final Report Abstract
Ein persistentes Problem in den empirischen orientierten Wissenschaften ist die Tatsache, dass in der Regel aus einer Zufallsstichprobe von Personen nicht alle erhobenen Daten vollständig zur Verfügung stehen. Dies bedeutet einerseits, dass einzelne Teile der eingesetzten Instrumente (Fragen, Items, Skalen) aus unterschiedlichen Gründen nicht vollständig (item nonresponse) oder dass von ausgewählten Personen überhaupt keine Angaben vorliegen (unit nonresponse). Eine Vielzahl von sogenannten ad-hoc Methoden (fallweiser oder listenweiser Ausschluss von fehlenden Werten) sind in den statistischen Programmpaketen implementiert und weit verbreitet. Da diese aber einen vollständig zufälligen Ausfallprozess annehmen (missing completely at random), sind bei Anwendung dieser ad-hoc Methoden verzerrte Ergebnisse zu erwarten. Einfache Ersetzungsverfahren wie beispielsweise die Mittelwertersetzung können ebenso nicht empfohlen werden, da sie in den inhaltlichen Modellen zu systematischen Verzerrungen der Parameterschätzer und dessen Standardfehler führen. Seit den grundlegenden Arbeiten von Rubin (1987) und Little und Rubin (2002) hat sich die Technik der mehrfachen Ersetzung fehlender Werte (multiple imputation of missing data) als Verfahren zur Behandlung fehlender Werte in empirischen Datensätzen weitgehend durchgesetzt. Die im Forschungsprojekt zugrundegelegte statistische Modellierung des fully conditional specification ist in der Lage, nach dem Skalenniveau angemessene Imputationsmodelle zur Verfügung zu stellen. Die praktische Umsetzung dieses Ansatzes erfolgte im R-Paket mice. Allerdings konnten die Modelle bis dato komplexe Clusterstrukturen (z.B. bei Paneldatensätzen) und Verteilungen für Zähldaten nicht berücksichtigen. Zudem standen Imputationstechniken, die gültige Inferenzen erlauben, lediglich für sehr restriktive Situationen zur Verfügung, die strenge Annahmen erfordern. Auf Basis des R-Paketes mice konnten im Forschungsprojekt zwei weitere R-Pakete entwickelt werden, die diese Defizite der multiplen Imputationsmodelle beseitigen und eine effiziente sowie robuste multiple Imputation komplexer Datensätze mit validen und genaueren Inferenzen ermöglichen. Zum einen wurde das R-Paket ImputeRobust entwickelt, welches verschiedene, flexible Imputationsmodelle enthält, die Mittelwert, Varianz, Schiefe und Kurtosis der konditionalen Verteilung der zu imputierenden Variablen berücksichtigt. Zum anderen wurde das R-Paket countimp entwickelt, welches verschiedene Typen von Zähldaten und deren zugrundeliegenden Verteilungsannahmen (z.B. Poisson-Verteilung, negative Binomialverteilung) bei der multiplen Imputation berücksichtigt. Besondere Aufmerksamkeit wurde auf die Implementation von Zähldatenmodellen gelegt, die seltene Ereignisse berücksichtigen und daher eine Verteilung mit einem überproportionalen Anteil von nicht aufgetretenen Ereignissen (zero-inflation) besser abbilden können. Aber nicht nur das Skalenniveau der Variablen sondern auch die Clusterstruktur der Daten (multilevel) wurde auf Basis des von Rubin (1987) diskutierten Bayesianischen Regressionsverfahren berücksichtigt. Die Pakete wurden umfangreichen Simulationsstudien unterzogen. Die praktische Umsetzung für angewandte empirische Forscherinnen und Forscher wird in einem Buch demnächst veröffentlicht.
Publications
-
(2018) Generalized Additive Model Multiple Imputation by Chained Equations With Package ImputeRobust. The R Journal 10 (1) 61
Salfran, Daniel; Spiess, Martin
-
(2010). Der Umgang mit fehlenden Werten, in: C. Wolf und H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse (pp. 117-142). Wiesbaden: VS Verlag
Spiess, M.
-
(2011). Efficient ways to impute incomplete panel data. Advances in Statistical Analysis, 95 (4), 351-373
Kleinke, K., Stemmler, M., Reinecke, J. & Lösel, F.
-
(2013). Countimp 1.0 – A Multiple Imputation Package for Incomplete Count Data (Technical Report). Bielefeld: University of Bielefeld, Faculty of Sociology
Kleinke, K. & Reinecke, J.
-
(2013). Multiple Imputation of Incomplete Zero-Inflated Count Data. Statistica Neerlandica, 67 (3), 311-336
Kleinke, K. & Reinecke, J.
-
(2015). A Comparison of Multiple Imputation Techniques. Hamburg: Institute of Psychology
Salfrán, D. & Spiess, M.
-
(2015). Handling Missing Data. Overview and Introduction, in: U. Engel, B. Jann, P. Lynn, A. Scherpenzeel & P. Sturgis (Eds.), Improving Survey Methods (pp. 365- 367). New York: Routledge
Spiess, M.
-
(2015). Handling of Missing Data in Statistical Analyses, in: U. Engel (Ed.), Survey Measurements. Techniques, Data Quality and Sources of Error. (pp. 192-208). Frankfurt a.M.: Campus
Salfrán, D. & Spiess, M.
-
(2015). Multiple Imputation of Multilevel Count Data, in: U. Engel, B. Jann, P. Lynn, A. Scherpenzeel & P. Sturgis (Eds.), Improving Survey Methods. (pp. 381-396). New York/London: Routledge
Kleinke, K. & Reinecke, J.
-
(2015). Multiple Imputation of Overdispersed Multilevel Count Data, in: U. Engel (Ed.), Survey Measurements. Techniques, Data Quality and Sources of Error. (pp. 209-226). Frankfurt a.M.: Campus
Kleinke, K. & Reinecke, J.
-
(2015). Robust Multiple Imputation, in: U. Engel, B. Jann, P. Lynn, A. Scherpenzeel & P. Sturgis (Eds.), Improving Survey Methods (pp. 397-411). New York: Routledge
De Jong, R. & Spiess, M.
-
(2016). Missing Data: On Criteria to Evaluate Imputation Methods. Hamburg: Institute of Psychology
Salfrán, D., Jordan, P. & Spiess, M.
-
(2016). Multiple Imputation of Predictor Variables Using Generalized Additive Models. Communication in Statistics – Simulation and Computation, 45 (3), 968-985
De Jong, R., van Buuren, S. & Spiess, M.
-
(2017). ImputeRobust – Robust Multiple Imputation with Generalized Additive Models for Location Scale and Shape. Hamburg: Institute of Psychology
Salfrán, D. & Spiess, M.
-
(2020): Applied Multiple Imputation. Cham: Springer International Publishing. xi, 292 S.
Kleinke, K., Reinecke, J., Salfrán, D. & Spiess, M.