Modellbasierte Feature Extraction und Regularisierung in hochdimensionalen Strukturen
Final Report Abstract
Die statistische Modellierung in hochdimensionalen Datenstrukturen erfordert die Entwicklung geeigneter Methoden der Datenreduktion. In dem Projekt wurden innovative Verfahren zur Informationsgewinnung entwickelt, die dem jeweiligen Datentyp angepaßt sind. Für Vorhersagen mit Signalen wurde ein Verfahren entwickelt, das es erlaubt, diejenigen Signalbereiche zu identifizien, die für eine Vorhersage relevant sind. Für Prädiktoren, die nur kategoriale Unterscheidungen enthalten, wurde gezeigt, wie sich Gruppen von Kategorien identifizieren lassen, die sich im Hinblick auf ihre Wirkung auf eine abhängige Größe nicht unterscheiden. Genereller wurden Konzepte entwickelt, die die Beantwortung der Frage erlauben, wie sich eine Vielfalt potentieller Einflußgrößen geeignet strukturieren lassen, um die relevanten Wirkungskomponenten zu finden. Neben der Identifikation und Selektion von Strukturen ist es auch essentiell, diese in der richtigen Weise mit davon abhängigen Größen zu verlinken. Neu entwickelte flexible Verknüpfungsstrukturen erlauben es, die Verknüpfung datengesteuert zu wählen. Die Vorteile der entwickelten Verfahren zur Identifikation von Wirkungsstrukturen und geeigneter Verknüfung liegen in der besseren Interpretierbarkeit statistischer Modellierung und der erhöhten Prognosegenauigkeit.
Publications
- (2009): Feature Selection and Weighting by Nearest Neighbor Ensembles. Chemometrics and Intelligent Laboratory Systems, 99, 30–38
Gertheiss, J. and Tutz, G.
(See online at https://dx.doi.org/10.1016/j.chemolab.2009.07.004) - (2009): Penalized Regression with Ordinal Predictors. International Statistical Review, 77, 345–365
Gertheiss, J. and Tutz, G.
(See online at https://dx.doi.org/10.1111/j.1751-5823.2009.00088.x) - (2009): Supervised Feature Selection in Mass Spectrometry based Proteomic Profiling by Blockwise Boosting. Bioinformatics, 8, 1076–1077
Gertheiss, J. and Tutz, G.
(See online at https://doi.org/10.1093/bioinformatics/btp094) - (2009): Variable Scaling and Nearest Neighbor Methods. Chemometrics, 23, 149–151
Gertheiss, J. and Tutz, G.
(See online at https://doi.org/10.1002/cem.1211) - (2010): Feature Extraction in Signal Regression: A Boosting Technique for Functional Data Regression. Journal of Computational and Graphical Statistics 19, 154–174
Tutz, G. and Gertheiss, J.
(See online at https://dx.doi.org/10.2307/25651305) - (2010): Feature Selection in Signal Regression by Blockwise Boosting, in: A. Boudou, F. Ferraty, Y. Romain, P. Sarda, P. Vieu and S. Viguier-Pla (eds.): Publications du Groupe de Travail STAPH: Recueil de résumés de l’année 2009–2010, Toulouse, France, 19–23
Gertheiss, J.
- (2010): Sparse Modeling of Categorial Explanatory Variables. Annals of Applied Statistics, 4, 2150–2180
Gertheiss, J. and Tutz, G.
(See online at https://dx.doi.org/10.1214/10-AOAS355)