Project Details
Projekt Print View

Identification of survival models that are prognostic across cohorts and stable regarding variable selection with methods of model-based optimization

Subject Area Epidemiology and Medical Biometry/Statistics
Term from 2016 to 2020
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 289820878
 
Final Report Year 2020

Final Report Abstract

Ziel des Projekts war die Anwendung moderner Methoden der Modellbasierten Optimierung auf hochdimensionale Daten. Im ersten Arbeitspaket wurde das Problem mehrerer Kohorten mit untersucht, die zur Beantwortung der gleichen Fragestellung vorliegen. Da sich die Beobachtungen aus den Kohorten bezüglich ihrer Verteilung oft unterscheiden, können die Daten nicht gemeinsam als Eingabe eines Modells verwendet werden. Stattdessen kann jedoch auf einer Kohorte gelernt werden, und die externe Validität bzw. Generalisierbarkeit durch ein gemeinsames Tuning der Hyperparameter verbessert werden. Dazu wurde der Algorithmus der Modellbasierten Optimierung entsprechend erweitert. Bei einer Anwendung auf ein Problem des Federated Learnings konnte eine gesteigerte externe Validität nachgewiesen werden. Im zweiten Arbeitspaket wurden einzelne Modelle oder Kombinationen von Filtern und Modellen gefunden, welche neben einer guten Vorhersagegüte zusätzlich über eine implizite Variablenauswahl verfügen, welche sowohl spärliche als auch stabile Lösungen liefert. Dies wurde durch Anwendung eines multikriteriellen Optimierungsansatzes erreicht, wobei die Vorhersagegüte, die Spärlichkeit und die Stabilität der Variablenauswahl die drei simultan zu optimierenden Kriterien darstellen. Zudem wurden klare Auswahl-Empfehlungen für Variablenselektionsfilter für die Praxis getroffen werden. Letztlich wurde quelloffene Software in Form von R-Paketen erstellt bzw. erweitert. Dadurch ist sichergestellt, dass die erzielten Resultate reproduzierbar sind und auf unseren Analysen inkrementell aufgebaut werden kann.

Publications

  • (2017). ​A Multicriteria Approach to Find Predictive and Sparse Models with Stable Feature Selection for High-Dimensional Data​. Computational and Mathematical Methods in Medicine, 2017, 1–18
    Bommert, A., ​Rahnenführer, J.​, & ​Lang, M.
    (See online at https://doi.org/10.1155/2017/7907163)
  • (2017). ​First Investigations on Noisy Model-Based Multi-objective Optimization​. In Lecture Notes in Computer Science (S. 298–313). Springer International Publishing
    Horn, D., Dagge, M., ​Sun, X.​, & ​Bischl, B.
    (See online at https://doi.org/10.1007/978-3-319-54157-0_21)
  • (2019). ​High Dimensional Restrictive Federated Model Selection with Multi-objective Bayesian Optimization over Shifted Distributions. In Advances in Intelligent Systems and Computing (S. 629–647). Springer International Publishing
    Sun, X​., Bommert, A., Pfisterer, F., ​Rahnenführer, J.​, ​Lang, M.​, & Bischl, B.
    (See online at https://doi.org/10.1007/978-3-030-29516-5_48)
  • (2020). Benchmark for filter methods for feature selection in high-dimensional classification data. Computational Statistics & Data Analysis, 143, 106839
    Bommert, A., ​Sun, X.​, ​Bischl, B.​, ​Rahnenführer, J.​, & ​Lang, M.
    (See online at https://doi.org/10.1016/j.csda.2019.106839)
  • (2020). ​Adjusted Measures for Feature Selection Stability for Data Sets with Similar Features. In International Conference on Machine Learning, Optimization, and Data Science
    Bommert, A, & ​Rahnenführer, J.
    (See online at https://doi.org/10.1007/978-3-030-64583-0_19)
  • (2020). ​ReinBo: Machine Learning Pipeline Conditional Hierarchy Search and Configuration with Bayesian Optimization Embedded Reinforcement Learning​. In Machine Learning and Knowledge Discovery in Databases (S. 68–84). Springer International Publishing
    Sun, X.​, Lin, J., & ​Bischl, B.
    (See online at https://doi.org/10.1007/978-3-030-43823-4_7)
 
 

Additional Information

Textvergrößerung und Kontrastanpassung