Detailseite
Integration von biologischem Vorwissen aus verschiedenen Typen von Omics Daten in Überlebenszeitmodelle
Antragsteller
Dr. Kai Kammers
Fachliche Zuordnung
Epidemiologie und Medizinische Biometrie/Statistik
Förderung
Förderung von 2013 bis 2015
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 240819500
Gene, Lebensstile und Umweltfaktoren gehören zu den wichtigsten Einflussfaktoren für die menschliche Gesundheit. Die biologischen Pathways, die die Variabilität zwischen dem Genom und dem Phänotyp von Gesunden und Kranken erklären, sind immer noch nicht genau verstanden. Eine wichtige Anwendung von hochdimensionalen Genexpressionsmessungen ist die Risikovorhersage und die Interpretation der genetischen Variablen, die in resultierenden Überlebenszeitmodellen enthalten sind. Ein Problem dabei ist die große Anzahl an Genen verglichen mit der Anzahl an Beobachtungen (Individuen). Einen Ausweg bieten hier Variablenselektionsverfahren, die Vorhersagemodelle mit hoher Güte und gleichzeitig geringer Komplexität erstellen können. Die Integration von biologischem Vorwissen zur Verbesserung der Vorhersagegüte und der Interpretierbarkeit dieser Modelle kann dabei äußerst hilfreich sein. Hierfür ist die Gene Ontology (GO)- Datenbank besonders geeignet, denn sie stellt biologische Gengruppeninformationen zur Verfügung. Allerdings sind die Expressionsprofile der Gene innerhalb der Gruppen oft heterogen. Ein Lösungsansatz für dieses Problem ist das Vorclustern (preclustering) von Genen, die zu im Voraus definierten Gruppen gehören, bezüglich der Korrelation ihrer Genexpressionswerte. Dies führt zu einer verbesserten Vorhersagegüte verglichen mit Modellen bestehend aus einzelnen Genen oder Gengruppen. Neben Genexpressionsdatensätzen existieren weitere Datenquellen, die Informationen über Genetik, Epigenetik und Proteomik enthalten. Ziel dieses Forschungsvorhabens ist es deshalb, den Preclustering-Ansatz auf andere hochdimensionale Datentypen zu erweitern. Im ersten Schritt werden die Resultate des Preclustering-Ansatzes mit drei weiteren Methoden verglichen, die die Integration von Gruppeninformationen ermöglichen (Group Lasso, Sparse Lasso und CoxBoost). Des Weiteren wird es einen Vergleich verschiedener Datenbanken geben, die biologische Gengruppeninformationen bereitstellen (GO, KEGG, MSigDB und PANTHER). Im nächsten Schritt wird das Wissen aus Überlebenszeitanalysen von Genexpressionsdaten auf genomweite Assoziationsstudien, die Messungen zu Einzelnukleotid-Polymorphismen (SNPs) enthalten, übertragen. Es werden Modelle zur Integration von Gruppen von SNPs, die beispielsweise zum gleichen Gen oder Pathway gehören, entwickelt. Daran anschließend wird ein integrativer Ansatz verfolgt, der sich auf das Anpassen und Evaluieren von statistischen Modellen basierend auf verschiedenen genetischen Datentypen fokussiert, um ein besseres Verständnis von Gesundheit und Krankheit zu erlangen. Hier werden gleichzeitig Daten der Genetik, Epigenetik, Proteomik, sowie der Phänotypen einbezogen. Diese Thematik wird sich auch mit der neuen SWATH-Technologie befassen, die Ergebnisse aus Peptid-Mappings erzeugt. Für die Evaluierung und Veröffentlichung werden die entwickelten statistischen Methoden sowohl auf simulierte als auch auf echte Datensätze angewendet.
DFG-Verfahren
Forschungsstipendien
Internationaler Bezug
USA
Gastgeber
Professor Dr. Ingo Ruczinski