Project Details
Projekt Print View

Robust and efficient multiple imputation of complex data sets

Subject Area Empirical Social Research
Term from 2012 to 2017
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 220421560
 
Final Report Year 2018

Final Report Abstract

Ein persistentes Problem in den empirischen orientierten Wissenschaften ist die Tatsache, dass in der Regel aus einer Zufallsstichprobe von Personen nicht alle erhobenen Daten vollständig zur Verfügung stehen. Dies bedeutet einerseits, dass einzelne Teile der eingesetzten Instrumente (Fragen, Items, Skalen) aus unterschiedlichen Gründen nicht vollständig (item nonresponse) oder dass von ausgewählten Personen überhaupt keine Angaben vorliegen (unit nonresponse). Eine Vielzahl von sogenannten ad-hoc Methoden (fallweiser oder listenweiser Ausschluss von fehlenden Werten) sind in den statistischen Programmpaketen implementiert und weit verbreitet. Da diese aber einen vollständig zufälligen Ausfallprozess annehmen (missing completely at random), sind bei Anwendung dieser ad-hoc Methoden verzerrte Ergebnisse zu erwarten. Einfache Ersetzungsverfahren wie beispielsweise die Mittelwertersetzung können ebenso nicht empfohlen werden, da sie in den inhaltlichen Modellen zu systematischen Verzerrungen der Parameterschätzer und dessen Standardfehler führen. Seit den grundlegenden Arbeiten von Rubin (1987) und Little und Rubin (2002) hat sich die Technik der mehrfachen Ersetzung fehlender Werte (multiple imputation of missing data) als Verfahren zur Behandlung fehlender Werte in empirischen Datensätzen weitgehend durchgesetzt. Die im Forschungsprojekt zugrundegelegte statistische Modellierung des fully conditional specification ist in der Lage, nach dem Skalenniveau angemessene Imputationsmodelle zur Verfügung zu stellen. Die praktische Umsetzung dieses Ansatzes erfolgte im R-Paket mice. Allerdings konnten die Modelle bis dato komplexe Clusterstrukturen (z.B. bei Paneldatensätzen) und Verteilungen für Zähldaten nicht berücksichtigen. Zudem standen Imputationstechniken, die gültige Inferenzen erlauben, lediglich für sehr restriktive Situationen zur Verfügung, die strenge Annahmen erfordern. Auf Basis des R-Paketes mice konnten im Forschungsprojekt zwei weitere R-Pakete entwickelt werden, die diese Defizite der multiplen Imputationsmodelle beseitigen und eine effiziente sowie robuste multiple Imputation komplexer Datensätze mit validen und genaueren Inferenzen ermöglichen. Zum einen wurde das R-Paket ImputeRobust entwickelt, welches verschiedene, flexible Imputationsmodelle enthält, die Mittelwert, Varianz, Schiefe und Kurtosis der konditionalen Verteilung der zu imputierenden Variablen berücksichtigt. Zum anderen wurde das R-Paket countimp entwickelt, welches verschiedene Typen von Zähldaten und deren zugrundeliegenden Verteilungsannahmen (z.B. Poisson-Verteilung, negative Binomialverteilung) bei der multiplen Imputation berücksichtigt. Besondere Aufmerksamkeit wurde auf die Implementation von Zähldatenmodellen gelegt, die seltene Ereignisse berücksichtigen und daher eine Verteilung mit einem überproportionalen Anteil von nicht aufgetretenen Ereignissen (zero-inflation) besser abbilden können. Aber nicht nur das Skalenniveau der Variablen sondern auch die Clusterstruktur der Daten (multilevel) wurde auf Basis des von Rubin (1987) diskutierten Bayesianischen Regressionsverfahren berücksichtigt. Die Pakete wurden umfangreichen Simulationsstudien unterzogen. Die praktische Umsetzung für angewandte empirische Forscherinnen und Forscher wird in einem Buch demnächst veröffentlicht.

Publications

 
 

Additional Information

Textvergrößerung und Kontrastanpassung