Detailseite
Projekt Druckansicht

Statistische Methoden zur Bewertung genetischer Varianten in Microarray- und Sequenzierungsstudien

Fachliche Zuordnung Epidemiologie und Medizinische Biometrie/Statistik
Förderung Förderung von 2011 bis 2018
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 203724463
 
Erstellungsjahr 2018

Zusammenfassung der Projektergebnisse

Variationen im menschlichen Genom können das Risiko der Erstehung einer Krankheit entscheidend beeinflussen. Deshalb befassen sich zahlreiche Studien mit der Analyse von genetischen Variationen und dabei insbesondere mit Einzelnukleotidpolymorphismen (SNPs; Single Nucleotide Polymorphisms), der am häufigsten vorkommenden Art genetischer Variationen. Ziel solcher Analysen ist es, SNPs, d.h. Variationen, die nur eine Basenpaarstelle in der DNA umfassen, zu identifizieren, die mit einer Krankheit assoziiert sind. Hierzu werden in genomweiten Assoziationsstudien hunderttausende, vorher festgelegte SNPs mit Microarrays in DNA-Proben gleichzeitig gemessen. Alternativ können Sequenzierungstechnologien genutzt werden, um sämtliche SNPs im gesamten Genom zu messen. Ziel dieses Forschungsprojekts war es, statistische Methoden für die Analyse von SNPs in solchen Microarray- und Sequenzierungsstudien zu entwickeln, die zu einer verbesserten Bewertung, ob bzw. wie stark SNPs mit einer Krankheit assoziiert sind, und somit zur Identifizierung von krankheitsassoziierten SNPs beitragen. Da einzelne SNPs häufig nur einen geringen Einfluss auf das Krankheitsrisiko zeigen, wollten wir dabei die Analyse der SNPs stärken, indem wir mehrere SNPs gemeinsam betrachten oder weitere Informationen in dieser Analyse berücksichtigen. So wird z.B. üblicherweise angenommen, dass nicht einzelne SNPs, sondern Interaktionen mehrerer SNPs das Krankheitsrisiko entscheidend beeinflussen. Es ist daher von Interesse SNP-Interaktionen zu identifizieren, die mit einer Krankheit assoziiert sind. Da die Anzahl der möglichen Interaktionen schon bei einer moderaten Anzahl an SNPs riesig ist, sind Methoden zur Identifizierung von krankheitsassoziierten SNP-Interaktionen üblicherweise auf die Analyse von verhältnismäßig wenigen SNPs beschränkt oder haben eine sehr hohe Rechenzeit. In diesem Projekt haben wir deshalb zwei Machine-Learning-Methoden entwickelt, mit denen in Fall-Kontroll-Studien effizient SNP-Interaktionen identifiziert werden können, die mit dem Fall-Kontroll-Status assoziiert sind. Die Anwendung beider Verfahren auf Hunderttausende von SNPs dauert dabei einigen Minuten bis wenigen Stunden. Regularisierte Regressionsverfahren wie Lasso können verwendet werden, um eine große Anzahl an SNPs gemeinsam/multivariat zu analysieren. Weiterentwicklungen dieser Methoden wie Sparse Group Lasso erlauben dabei eine effiziente Analyse von SNP-Daten, die berücksichtigt, dass SNPs gruppenweise hoch miteinander korreliert sind. Allerdings nehmen diese Verfahren üblicherweise an, dass die betrachteten Personen voneinander unabhängig sind. Da dies in Fall-Eltern-Trio-Studien, in denen kranke Kinder und ihre Eltern betrachtet werden, nicht der Fall ist, wir aber an der Analyse solcher Trio-Daten interessiert sind, haben wir TrioSGL (Trio Sparse Group Lasso) entwickelt, die unserem Wissen nach erste regularisierte Regressionsmethode für Trio-Daten. Neben SNP-Daten existieren auch noch andere Variationsdaten wie die Variation in der Anzahl an Kopien der Chromosomen (CNV) oder alternative Spleiß-Ereignisse. Deshalb haben wir z.B. eine Methode für die Aufdeckung von de novo CNVs, d.h. Kopienanzahlen in den erkrankten Kindern, die von den Kopienanzahlen in den Eltern abweichen, sowie eine Analyse-Pipeline für die Identifizierung und Bewertung von Spleiß-Ereignissen entwickelt. Vermehrt werden in Studien mehrere genetische Datentypen wie SNPs, CNVs, Genexpressionen und Histonmodifikationen gleichzeitig erhoben. Ziel solcher Studien ist es, die verschiedenen Datentypen gemeinsam zu betrachten, um so die Assoziationsanalyse zu stärken. In diesem Forschungsprojekt haben wir deshalb für eine solche integrative Datenanalyse Verfahren basierend auf Bayes-Modellen entwickeln, die den Einfluss der verschiedenen Datentypen direkt multivariat modellieren und nicht – wie in anderen Verfahren zur integrativen Analyse – die verschiedenen Datentypen zuerst getrennt betrachten und dann die Ergebnisse der getrennten Analyse kombinieren. Neben der Entwicklung dieser Verfahren, mit denen genetische Variationsdaten analysiert werden können, haben wir auch einige theoretischere Methoden z.B. zur Fallzahlplanung in Fall-Eltern-Trio-Studien und für Spleiß-Ereignisse sowie zur Bestimmung der maximal erreichbaren Güte von multivariaten Assoziationstests in Fall-Kontroll-Studien erarbeitet. Sämtliche in diesem Projekt entwickelten Methoden wurden in frei verfügbarer Software umgesetzt.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung