Detailseite
Projekt Druckansicht

Verloren im Raum der Bäume (LITS)

Fachliche Zuordnung Bioinformatik und Theoretische Biologie
Theoretische Informatik
Förderung Förderung von 2016 bis 2024
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 295143677
 
Wir werden uns zwei Phänomenen widmen, welche dazu führen, uns im Raum der möglichen Stammbäume verloren zu fühlen.Einerseits werden wir topologische Diskordanzen zwischen Gen- und Speziesbäumen betrachten, welche einer Korrektur durch entsprechende Algorithmen bedürfen. Andererseits werden wir das Problem sog. Terrassen im phylogenetischen Suchraum eingehend betrachten. Das grundlegende Ziel ist es, besser zu charakterisieren warum wir im Raum der Bäume verloren sind und wie man diesen Raum zielgerichtet und effizienter traversieren und explorieren kann. Die spezifischen Teilprojekte fußen auf unserer erfolgreichen Kooperation in den vorhergegangenen Förderzeiträumen und der Erfahrung, welche unsere Nachwuchswissenschaftler in diesem Bereich bereits aufgebaut haben. Wir planen neue Methoden, Algorithmen sowie open source Software zu entwickeln, um (i) Stichproben, Aufzählungen und Statistiken von Bäumen, welche auf einer Terasse liegen zu berechnen, (ii) den von Terrassen durchsetzten Baumraum effizienter zu traversieren und (iii) skalierbare, effiziente und akkurate Genbaum - Speziesbaum Korrekturen durchzuführen.Biologische Bedeutung: Die biologische Relevanz unserer Forschung begründet sich darin, dass derzeit nur eine Handvoll einfach zu benutzender likelihood-basierter Programme zur Korrektur von Genbäumen anhand von Speziesbäume existiert. Obwohl gegenwärtig nur ein Prototyp unseres Programmes GeneRax existiert, wird dieser derzeit bereits von Biologen benutzt. Aufgrund der hohen Benutzerzahl von RAxML-NG und IQ-Tree bedeutet jegliche Verbesserung in deren Effizienz, dass Tausende CPU-Stunden eingespart werden können. Wie in (Dobrin, Zwickl, and Sanderson 2018) gezeigt, enthält eine Vielzahl gegenwärtiger phylogenetischer Datensätze Terrassen. Demzufolge ist das Problem keinesfalls rein theoretischer Natur, sondern mit einem tatsächlichen Problem empirischer Datensätze, welches angegangen werden muss. Sollten sich unsere vorläufigen Ergebnisse zu Quasi-Terrassen bestätigen, wird die Präsenz von Terrassen eine weitaus größere Anzahl empirischer Stammbaumanalysen betreffen, zumal diese dann weniger von Modellspezifika abhängen. Da Terassen hauptsächlich in Datensätzen mit fehlenden Daten auftreten, könnte man annehmen, dass die Analyse vollständiger Genome hier Abhilfe schaffen könnte. Dies ist jedoch nicht der Fall. Da biologische Diversität zum Teil aus Gendeletionen entsteht sind nicht alle Gene in den zu untersuchenden Spezies präsent. Daher stellt das fehlen von Gen-spezifischen Date in großen phylogenetischen Datensätzen eine inhärente Eigenschaft derselben dar. Demzufolge, stellt das Fehlen von (Gen-)Daten eine wichtige grundlegende Eigenschaft dar, welche systematisch in Stammbaumrekonstruktionssoftware berücksichtigt werde muss. Dies ist insbesondere für die Rekonstruktion des Stammbaums des Lebens unerlässlich, da dieser stark divergente Spezies mit sich stark unterscheidenden Genmengen enthält.
DFG-Verfahren Sachbeihilfen
Internationaler Bezug Österreich
Kooperationspartner Professor Dr. Arndt von Haeseler
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung