Ensemble-Methoden zur Verbesserung von Modellen für Regressionsprobleme mit stetigen und zensierten Zielgrößen
Zusammenfassung der Projektergebnisse
Regressionsmodelle sind ein wichtiges Werkzeug, um den Einfluß von potentiell vielen erklärenden Variablen auf eine Zielgröße und quantifizieren. Diese Modelle stellen die Grundlage für die Erforschung von Wirkungsbeziehungen in den quantitativ arbeitenden Wissenschaftsdisziplinen dar und werden seit mehr als 200 Jahren aktiv erforscht. Die Schätzung solcher Modelle beruht auf der Minimierung einer sogenannten Risikofunktion, welche den „Abstand“ eines Modells von den zu modellierenden Daten mißt und für ein „bestes“ Modell möglichst klein sein soll. Boosting ist ein Optimierungsverfahren, welches für die effiziente Suche eines solchen Regressionsmodells eingesetzt werden kann. Der Vorteil gegenüber anderen bekannten Verfahren liegt (1) in der großen Zahl von verschiedenen Risikofunktionen und damit Modellklassen, die mit einem generischen Algorithmus behandelt werden können, (2) in der Möglichkeit, die Komplexität des resultierenden Modells kontrollieren zu können, zum Beispiel also nur Funktionsschätzungen einer bestimmten Glattheit zuzulassen und (3) Modelle für potentiell sehr viele erklärende Variablen schätzen zu können. Im Rahmen dieses Projektes wurden Erweiterungen dieses generischen Boosting-Algorithmus vorgeschlagen, welche (1) die Schätzung von Regressionsmodellen unter Zensierung, also bei nicht vollständiger Information über den Status der Zielgröße, gestatten und (2) es erlauben, nicht nur den Erwartungswert der Zielgröße als Funktion der erklärenden Variablen zu beschreiben sondern allgemeinere Informationen über die bedingte Verteilung der Zielgröße zu erhalten. Dies kann zum Beispiel durch additive Quantilregression geschehen oder über eine explizite Modellierung von höheren Momenten. Diese Entwicklungen tragen der Nachfrage nach komplexeren Regressionsmodellen aus vielen Wissenschaftsdisziplinen Rechnung, welche durch einen generellen Trend zu komplexeren Fragestellungen, neuen Erhebungsmethoden zur Beobachtung großer Datenmengen und dem Wunsch nach problemadäquaten Modellierungsansätzen ausgelöst wird. Die Ergebnisse dieses Projektes haben sehr schnell Verwendung in verschiedenen Anwendungen gefunden, dies nicht zuletzt wegen der Verfügbarkeit einer freien Softwareimplementation der neuen Modelle. Bundesweites Medienecho erzeugten die für das Waldinformationssystem Nordalpen (www.winalp.info) mit Hilfe dieser Methoden und Softwarewerkzeuge hergestellten Karten für die Sanierung von Gebirgswäldern unter Berücksichtigung der Auswirkungen des Klimawandels sowie ein auf einem geboosteten geoadditiven Poisson-Modell basierender Risikoatlas für Wildunfälle in Bayern.
Projektbezogene Publikationen (Auswahl)
- (2007), “Boosting algorithms: Regularization, prediction and model fitting,” Statistical Science, 22, 477–505, with Discussion
Bühlmann, P. & Hothorn, T.
- (2008), “Flexible boosting of accelerated failure time models,” BMC Bioinformatics, 9, 269
Schmid, M. & Hothorn, T.
- (2009), “Variable selection and model choice in geoadditive regression models,” Biometrics, 65, 626–634
Kneib, T., Hothorn, T., & Tutz, G.
- (2010), “Estimation and regularization techniques for regression models with multidimensional prediction functions,” Statistics and Computing, 20, 139–150
Schmid, M., Potapov, S., Pfahlberg, A., & Hothorn, T.
- (2010), “Model-based boosting 2.0,” The Journal of Machine Learning Research, 11, 2109–2113
Hothorn, T., Bühlmann, P., Kneib, T., Schmid, M., & Hofner, B.
- (2011), “A framework for unbiased model selection based on boosting,” Journal of Computational and Graphical Statistics, 20, 956– 971
Hofner, B., Hothorn, T., Kneib, T., & Schmid, M.
- (2011), “A robust alternative to the Schemper-Henderson estimator of prediction error,” Biometrics, 67, 524–535
Schmid, M., Hielscher, T., Augustin, T., & Gefeller, O.
- (2011), “Identifying risk factors for severe childhood malnutrition by boosting additive quantile regression,” Journal of the American Statistical Association, 106, 494–510
Fenske, N., Kneib, T., & Hothorn, T.
- (2012), “GAMLSS for highdimensional data–A flexible approach based on boosting,” Journal of the Royal Statistical Society: Series C (Applied Statistics), 61, 403–427
Mayr, A., Fenske, N., Hofner, B., Kneib, T., & Schmid, M.