Detailseite
Verbesserung der Verlässlichkeit statistischer Analysen mit dem R Paket „DHARMa“
Antragsteller
Professor Dr. Florian Hartig
Fachliche Zuordnung
Ökologie und Biodiversität der Pflanzen und Ökosysteme
Epidemiologie und Medizinische Biometrie/Statistik
Epidemiologie und Medizinische Biometrie/Statistik
Förderung
Förderung seit 2023
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 528747641
Die statistische Analyse von Beobachtungs- oder Versuchsdaten ist ein zentraler Prozess in den empirischen Wissenschaften. Ein wichtiges Problem in diesem Prozess ist, dass Schlussfolgerungen (Inferenzen), die mit Hilfe eines statistischen Modells aus Daten gewonnen werden, von den spezifischen Annahmen dieses Modells abhängen. Statistische Ergebnisse sind im Allgemeinen nur dann verlässlich, wenn diese Annahmen auch mit dem zu Grunde liegende datengenerierenden Prozess übereinstimmen. Aus diesem Grund wird in einführenden statistischen Büchern extensiv auf die Notwendigkeit hingewiesen, statistischen Modellen durch die Analyse von Residuen zu validieren. In den letzten Jahren hat sich die Komplexität der verwendeten statistischen Modelle in der Ökologie und viele verwandten empirischen Wissenschaften stetig erhöht. Analysen durch einfache lineare Regressionen sind inzwischen selten geworden. Die meisten empirischen Analysen in dem Feld benutzen das Framework der generalisierten linearen gemischten Modelle (GLMM), welche es erlauben sowohl die Verteilung der Daten, also auch deren Struktur (Cluster, Kovarianzen, Homoskedastizität) flexibel zu modellieren. Allerdings ergibt sich für diese Modelle das Problem, dass deren naive Residuen nicht mehr direkt interpretieren lassen, und damit viel Wissenschaftler vor dem Problem standen, wie sie ihre statistischen Modelle validieren sollten. Das R-Paket 'DHARMa' löst dieses Problem, indem es einen simulationsbasierten Ansatz verwendet, um leicht interpretierbare skalierte (Quantil-)Residuen für angepasste (verallgemeinerte) lineare gemischte Modelle zu erstellen. Es unterstützt viele der gängigen Regressionspakete in der R-Umgebung und kann auch mit externer frequentistischer und Bayes'scher Software gekoppelt werden, sofern diese Simulationen aus dem angepassten Modell erstellen können. Das DHARMa Package hat inzwischen eine große Nutzergemeinde aus allen empirischen Wissenschaften, allerdings immer noch mit einem Schwerpunkt in der Ökologie und Evolutionsbiologie. Ziel des beantragten Projekts ist es, die Interoperabilität und Nutzerfreundlichkeit von DHARMa zu erhöhen (Ausschreibungsziel: Usability und Impact); durch Unit Tests, Tests der numerischen und statistische Robustheit und verbesserte Reports die valide Anwendung von DHARMa zu stärkten (Ausschreibungsziel: Quality assurance); und weitere Testverfahren in Zusammenarbeit mit der R community und anderen Package Entwicklern zu implementieren (Ausschreibungsziel: Further development).
DFG-Verfahren
Sachbeihilfen