Detailseite
Projekt Druckansicht

Ultraschnelle Haplotyp- und Genotyp-Schätzung von genomweiten Daten auf einem FPGA-GPU Hybridsystem

Fachliche Zuordnung Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Bioinformatik und Theoretische Biologie
Epidemiologie und Medizinische Biometrie/Statistik
Rechnerarchitektur, eingebettete und massiv parallele Systeme
Förderung Förderung von 2017 bis 2022
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 351403079
 
Internationale Großprojekte wie die United States 1-million-volunteer health study wurden initiiert, um die Genome von mehr als einer Million Personen zu sequenzieren. Die resultierenden DNA Sequenzdaten werden häufig als Referenz für die Haplotyp- und Genotyp-Schätzung verwendet, d.h. die Bestimmung der persönlichen Haplotypen sowie fehlender Genotypen von Studienteilnehmern aus weltweiten klinischen Biobanken. Die Nutzung des bisher größten Haplotyp-Referenzdatensatzes mit mehr als 32.000 Referenzindividuen führt bereits zu Rechnerlaufzeiten von mehreren Tagen. Dabei werden die Algorithmen bereits auf dezidierten hochperformanten Computerclustern wie dem Sanger Imputation Server (SIS) ausgeführt. Schnellere und energieeffizientere Rechnerarchitekturen sind daher notwendig, um die Rechenzeit um Größenordungen zu reduzieren und damit in Zukunft die Genotypschätzung anhand größerer und einer Vielzahl von weltweit verfügbaren Referenzdatensätzen überhaupt zu ermöglichen.Wir beabsichtigen deshalb, basierend auf der Entwicklung eines FPGA-GPU Hybrid-Systems, einen Webservice für die ultraschnelle Haplotyp- und Genotyp-Schätzung anzubieten. Die hybride Nutzung von Field Programmable Gate Arrays (FPGAs) und Graphical Processing Units (GPUs) stellt ein neues vielversprechendes Forschungsgebiet für Algorithmendesign dar. Daneben werden wir die aktuelle HapHedge Datenstruktur des SIS algorithmisch verbessern und dadurch ein schnelles Lookup-Verfahren perfekt angepasst an paralleles Arbeiten und die FPGA-Datenstruktur, entwickeln. Für die von uns beabsichtigte Entwicklung der Haplotyp- und Genotyp-Schätzung, basierend auf den Verfahren Eagle v2 und PBWT, zeigen unsere Schätzungen bereits einen Geschwindigkeitsvorteil von mindestens 164 und 142 eines einzigen FPGA-Prozessors im Vergleich zu jeweils einem 16-Kern CPU-Rechner bzw. dem SIS. Somit reduziert sich die Laufzeit von Tagen zu Minuten für einen mittelgroßen GWAS Datensatz. Ein Standard-Rechner mit nur vier FPGAs, wie er von uns für den Service angeboten werden soll, kann in der Laufzeit mit einem HPC-Cluster mit mehr als 650 16-Kern CPUs mithalten, bei gleichzeitiger Ersparnis von über 99% der benötigten Energie, wobei die geplante Einbindung von GPUs hierbei noch nicht einmal berücksichtigt wurde.Darüberhinaus beabsichtigen wir die Implementierung einer öffentlich zugänglichen webbasierten graphischen Benutzerschnittstelle, mit welcher die Imputation anhand von diversen Referenzdatensätzen schnell, einfach und vergleichend durchgeführt werden kann. Dadurch werden der medizin-genetischen Forschung völlig neue praktische Analysemöglichkeiten ermöglicht, wie beispielsweise die schnelle Haplotyp- und Genotyp-Schätzung anhand einer Vielzahl von weltweit verfügbaren Referenzdatensätzen. Somit ließe sich die Auswahl einer geeigneten Referenz für jeden genomweiten Analysedatensatz auf individueller Ebene empirisch ermitteln - eine wichtige Grundvoraussetzung in der personalisierten Medizin.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung