Detailseite
Projekt Druckansicht

Robust and efficient multiple imputation of complex data sets

Fachliche Zuordnung Empirische Sozialforschung
Förderung Förderung von 2012 bis 2017
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 220421560
 
Erstellungsjahr 2018

Zusammenfassung der Projektergebnisse

Ein persistentes Problem in den empirischen orientierten Wissenschaften ist die Tatsache, dass in der Regel aus einer Zufallsstichprobe von Personen nicht alle erhobenen Daten vollständig zur Verfügung stehen. Dies bedeutet einerseits, dass einzelne Teile der eingesetzten Instrumente (Fragen, Items, Skalen) aus unterschiedlichen Gründen nicht vollständig (item nonresponse) oder dass von ausgewählten Personen überhaupt keine Angaben vorliegen (unit nonresponse). Eine Vielzahl von sogenannten ad-hoc Methoden (fallweiser oder listenweiser Ausschluss von fehlenden Werten) sind in den statistischen Programmpaketen implementiert und weit verbreitet. Da diese aber einen vollständig zufälligen Ausfallprozess annehmen (missing completely at random), sind bei Anwendung dieser ad-hoc Methoden verzerrte Ergebnisse zu erwarten. Einfache Ersetzungsverfahren wie beispielsweise die Mittelwertersetzung können ebenso nicht empfohlen werden, da sie in den inhaltlichen Modellen zu systematischen Verzerrungen der Parameterschätzer und dessen Standardfehler führen. Seit den grundlegenden Arbeiten von Rubin (1987) und Little und Rubin (2002) hat sich die Technik der mehrfachen Ersetzung fehlender Werte (multiple imputation of missing data) als Verfahren zur Behandlung fehlender Werte in empirischen Datensätzen weitgehend durchgesetzt. Die im Forschungsprojekt zugrundegelegte statistische Modellierung des fully conditional specification ist in der Lage, nach dem Skalenniveau angemessene Imputationsmodelle zur Verfügung zu stellen. Die praktische Umsetzung dieses Ansatzes erfolgte im R-Paket mice. Allerdings konnten die Modelle bis dato komplexe Clusterstrukturen (z.B. bei Paneldatensätzen) und Verteilungen für Zähldaten nicht berücksichtigen. Zudem standen Imputationstechniken, die gültige Inferenzen erlauben, lediglich für sehr restriktive Situationen zur Verfügung, die strenge Annahmen erfordern. Auf Basis des R-Paketes mice konnten im Forschungsprojekt zwei weitere R-Pakete entwickelt werden, die diese Defizite der multiplen Imputationsmodelle beseitigen und eine effiziente sowie robuste multiple Imputation komplexer Datensätze mit validen und genaueren Inferenzen ermöglichen. Zum einen wurde das R-Paket ImputeRobust entwickelt, welches verschiedene, flexible Imputationsmodelle enthält, die Mittelwert, Varianz, Schiefe und Kurtosis der konditionalen Verteilung der zu imputierenden Variablen berücksichtigt. Zum anderen wurde das R-Paket countimp entwickelt, welches verschiedene Typen von Zähldaten und deren zugrundeliegenden Verteilungsannahmen (z.B. Poisson-Verteilung, negative Binomialverteilung) bei der multiplen Imputation berücksichtigt. Besondere Aufmerksamkeit wurde auf die Implementation von Zähldatenmodellen gelegt, die seltene Ereignisse berücksichtigen und daher eine Verteilung mit einem überproportionalen Anteil von nicht aufgetretenen Ereignissen (zero-inflation) besser abbilden können. Aber nicht nur das Skalenniveau der Variablen sondern auch die Clusterstruktur der Daten (multilevel) wurde auf Basis des von Rubin (1987) diskutierten Bayesianischen Regressionsverfahren berücksichtigt. Die Pakete wurden umfangreichen Simulationsstudien unterzogen. Die praktische Umsetzung für angewandte empirische Forscherinnen und Forscher wird in einem Buch demnächst veröffentlicht.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung