Identifikation von Kohorten-übergreifenden und Variablen-stabilen prognostischen Modellen in der Überlebenszeitanalyse mit Methoden der modellbasierten Optimierung
Zusammenfassung der Projektergebnisse
Ziel des Projekts war die Anwendung moderner Methoden der Modellbasierten Optimierung auf hochdimensionale Daten. Im ersten Arbeitspaket wurde das Problem mehrerer Kohorten mit untersucht, die zur Beantwortung der gleichen Fragestellung vorliegen. Da sich die Beobachtungen aus den Kohorten bezüglich ihrer Verteilung oft unterscheiden, können die Daten nicht gemeinsam als Eingabe eines Modells verwendet werden. Stattdessen kann jedoch auf einer Kohorte gelernt werden, und die externe Validität bzw. Generalisierbarkeit durch ein gemeinsames Tuning der Hyperparameter verbessert werden. Dazu wurde der Algorithmus der Modellbasierten Optimierung entsprechend erweitert. Bei einer Anwendung auf ein Problem des Federated Learnings konnte eine gesteigerte externe Validität nachgewiesen werden. Im zweiten Arbeitspaket wurden einzelne Modelle oder Kombinationen von Filtern und Modellen gefunden, welche neben einer guten Vorhersagegüte zusätzlich über eine implizite Variablenauswahl verfügen, welche sowohl spärliche als auch stabile Lösungen liefert. Dies wurde durch Anwendung eines multikriteriellen Optimierungsansatzes erreicht, wobei die Vorhersagegüte, die Spärlichkeit und die Stabilität der Variablenauswahl die drei simultan zu optimierenden Kriterien darstellen. Zudem wurden klare Auswahl-Empfehlungen für Variablenselektionsfilter für die Praxis getroffen werden. Letztlich wurde quelloffene Software in Form von R-Paketen erstellt bzw. erweitert. Dadurch ist sichergestellt, dass die erzielten Resultate reproduzierbar sind und auf unseren Analysen inkrementell aufgebaut werden kann.
Projektbezogene Publikationen (Auswahl)
- (2017). A Multicriteria Approach to Find Predictive and Sparse Models with Stable Feature Selection for High-Dimensional Data. Computational and Mathematical Methods in Medicine, 2017, 1–18
Bommert, A., Rahnenführer, J., & Lang, M.
(Siehe online unter https://doi.org/10.1155/2017/7907163) - (2017). First Investigations on Noisy Model-Based Multi-objective Optimization. In Lecture Notes in Computer Science (S. 298–313). Springer International Publishing
Horn, D., Dagge, M., Sun, X., & Bischl, B.
(Siehe online unter https://doi.org/10.1007/978-3-319-54157-0_21) - (2019). High Dimensional Restrictive Federated Model Selection with Multi-objective Bayesian Optimization over Shifted Distributions. In Advances in Intelligent Systems and Computing (S. 629–647). Springer International Publishing
Sun, X., Bommert, A., Pfisterer, F., Rahnenführer, J., Lang, M., & Bischl, B.
(Siehe online unter https://doi.org/10.1007/978-3-030-29516-5_48) - (2020). Benchmark for filter methods for feature selection in high-dimensional classification data. Computational Statistics & Data Analysis, 143, 106839
Bommert, A., Sun, X., Bischl, B., Rahnenführer, J., & Lang, M.
(Siehe online unter https://doi.org/10.1016/j.csda.2019.106839) - (2020). Adjusted Measures for Feature Selection Stability for Data Sets with Similar Features. In International Conference on Machine Learning, Optimization, and Data Science
Bommert, A, & Rahnenführer, J.
(Siehe online unter https://doi.org/10.1007/978-3-030-64583-0_19) - (2020). ReinBo: Machine Learning Pipeline Conditional Hierarchy Search and Configuration with Bayesian Optimization Embedded Reinforcement Learning. In Machine Learning and Knowledge Discovery in Databases (S. 68–84). Springer International Publishing
Sun, X., Lin, J., & Bischl, B.
(Siehe online unter https://doi.org/10.1007/978-3-030-43823-4_7)