Monte-Carlo-Simulationen zur Evaluation der Leistungsfähigkeit moderner Missing Data Techniken bei Schätzung von Strukturgleichungsmodellen mit latenten Variablen. Eine systematische Analyse verschiedener Varianten der Multiplen Imputation.
Zusammenfassung der Projektergebnisse
Das Forschungsprojekt vergleicht mittels Monte-Carlo-Simulationstechniken die Performanz verschiedener Varianten der Multiplen Imputation (MI) und MI-alternativer Verfahren zur Schätzung fehlender Werte im Kontext von Strukturgleichungsmodellierungen (SEM-Analyse). Es wurden sechs Missing Data Techniken (MDTs) im Kontext von drei verschiedenen SEM-Populationsmodellen unter unterschiedlichen Simulationskonfigurationen getestet. Die variierten Konfigurationen ergaben sich aus: a) Datensätzen mit unterschiedlichen Fallzahlen, b) Datensätzen mit symmetrischen und (stark) asymmetrischen Variablenverteilungen, c) Datensätzen mit unterschiedlich hohen Anteilen an fehlenden Werten. Neben MI-Techniken mit strikten Annahmen zur Verteilung der Modellvariablen (multivariate Normalverteilung) wurden auch MI-Varianten getestet, welche dieser Annahme nicht unterliegen und kategoriale Variablen explizit im Verfahren berücksichtigen können. Zusätzlich zu den verschiedenen Varianten der Multiplen Imputation wurden zum Vergleich auch MI-alternative Verfahren eingesetzt (das „Direct Maximum Likelihood-Schätzverfahren“ sowie die „Expectation Maximization-Methode“). Zur Bewertung der Performanz der verschiedenen MDTs wurden damit erreichbare SEM-Fit-Indices herangezogen (p-Wert der Chi²-Statistik, SRMR, RMSEA und CFI). Es wurden aber auch die Qualität der geschätzten SEM-Parameter und deren Standardfehler sowie die relative Effizienz der Parameterschätzungen untersucht. Auf diese Weise konnten unter den sechs getesteten MDTs zwei Verfahren identifiziert werden, die bei allen konfigurierten Modell- und Datenbedingungen sehr gute Ergebnisse erbringen. Das sind das „Direct Maximum Likelihood-Schätzverfahren“ (Direct-ML-Verfahren) und eine Variante der MI, die bei der Imputation der fehlenden Werte die Modellstruktur des Analysemodells berücksichtigt: das H0-Verfahren. Beide Methoden erbringen neben sehr guten Ergebnissen bei den untersuchten SEM-Fit-Indices auch unverzerrte SEM-Parameterschätzungen und Standardfehler. Von den MI-Varianten kann somit allein das H0-Verfahren uneingeschränkt für den praktischen Einsatz empfohlen werden. Zudem kann als Nicht-MI-Variante die Direct-ML-Methode empfohlen werden. Sie hat sogar den Vorteil, dass die fehlenden Werte direkt bei der Modellschätzung berücksichtigt werden (ohne die fehlenden Werte separat imputieren zu müssen). Alle anderen MDTs liefern zwar auch gute, unverzerrte SEM-Parameterschätzwerte und Standardfehler, aber sie generieren häufig SEM-Fit-Werte, die zur fälschlichen Ablehnung von geschätzten Strukturgleichungsmodellen führen. Zwar ist bei kleinen Missinganteilen die Modellbewertung anhand der Fit-Indices oftmals unproblematisch, aber bei höheren Anteilen (ab ca. 20%) kann nur ein einziger Fit-Index uneingeschränkt empfohlen werden: der SRMR-Index (Standardized Root Mean-Square Residual Index).
Projektbezogene Publikationen (Auswahl)
-
Verfahren der Multiplen Imputation bei Schätzung von Strukturgleichungsmodellen mit latenten Variablen. Ein systematischer Vergleich mittels Monte-Carlo-Simulationen. (SISS – Schriftenreihe des Instituts für Sozialwissenschaften der Universität Stutt-gart, 2020, Nr. 50).
Wahl, Andreas, Dieter Urban