Detailseite
Schätz- und Resamplingverfahren zur Beurteilung multipler Tests für hochdimensionale Daten
Antragsteller
Professor Dr. Arnold Janssen
Fachliche Zuordnung
Mathematik
Förderung
Förderung von 2011 bis 2018
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 209176168
Zusammenfassung Moderne Technologien in den Lebenswissenschaften ermöglichen neuerdings die Erfassung hochdimensionaler Daten. Diese Dimension übersteigt häufig die Stichprobengröße deutlich. Zu nennen sind hier z.B. genomweite Studien in der Biologie und Medizin. In vielen Anwendungen sollen vorhandene Effekte und Auffälligkeiten (genannt Signale) aufgedeckt werden, die nur spärlich in den Daten vertreten sind (englisch sparsity). Bei Genomuntersuchungen kommen z.B. in der Regel nur wenige unbekannte Risikopositionen in Frage. Zur Aufdeckung der Effekte werden häufig multiple Tests verwendet, deren Qualität durch die false discovery rate (FDR) beurteilt wird. Die FDR ist der Erwartungswert des Quotienten der Anzahl der fälschlicherweise verworfenen Hypothesen dividiert durch die Anzahl aller Verwerfungen. Das bekannteste multiple Testverfahren ist der berühmte Benjamini und Hochberg Test von 1995. In einem auslaufenden DFG-Projekt werden diese Testprobleme untersucht und erweiterte Lösungen vorgeschlagen, Arbeitstitel: Hochdimensionale Signalerkennungsprobleme. In dem Fortsetzungsantrag wird jetzt die Qualität multipler Tests mit Hilfe von Schätz- und Resamplingverfahren untersucht. Wir tragen damit der Beobachtung Rechnung, dass die Ergebnisse multipler Tests und daraus resultierende Risikoabschätzungen eine große Variabilität aufweisen können. In der Praxis werden wenige Signale häufig von einem hochdimensionalen Rauschen überlagert. In dem jetzigen Projekt soll die Qualität multipler Tests für spärlich auftretende Effekte untersucht werden. Dazu ist die Schätzung der effektiven FDR für sehr kleine Quantile vorgesehen. Die Variabilität der Schätzer soll durch die Konstruktion nichtparametrischer Konfidenzintervalle kontrolliert werden. Dazu ist es notwendig, zunächst die Verteilung der Schätzer für die effektive FDR zu ermitteln. Vorgeschlagen werden modifizierte Resamplingverfahren, die eine Variante des low resampling Bootstrap darstellen. In diesem Bereich kann auf die Erfahrung aus unseren früheren Arbeiten zurückgegriffen werden. Wegen der sparsity Problematik der Signale versagt bekanntlich das klassische Bootstrapverfahren und es müssen neue Wege beschritten werden. Untersucht wird für verschiedene multiple Tests die Konsistenz der Schätzverfahren und die Tragweite der Resamplingverfahren zur Konstruktion der Konfidenzintervalle. Unterstützt werden die Untersuchungen durch umfangreiche Monte Carlo Simulationen. Fortgesetzt wird die begonnene Zusammenarbeit mit Molekularbiologen und Kollegen aus der angewandten Biometrie, die wertvolle Anregungen für das Projekt gegeben haben.
DFG-Verfahren
Sachbeihilfen