High-Performance Computing (HPC) Cluster
Final Report Abstract
Mit Hilfe des Computing-Cluster konnten wir viele berechnungsintensive Projekte durchführen, die wir mit unseren bestehenden Resources nicht bewätligt hätten. So konnten wir zum Beispiel hunderten von Tausend nicht-kodierenden RNAs nach sequenz- und strukturähnlichkeit clustern. In den letzten Jahren wurde festgestellt, dass ein Großteil des Genoms nicht für Protein kodiert sondern sogenannte nicht-kodierende RNA (60-80%, im Vergleich zu 1,2% Protein-kodierende Bereiche). Für ein Großteil ist die Funktion nicht bekannt. Clustering ist eine der wenigen Möglichkeiten, hier durch Erkennen von Gemeinsamkeiten eine funktionale Annotation zu erhalten. Die Vergleich hinsichtlich Sequenz und Struktur ist aber sehr aufwendig (O(n^4)) und muss für quadratisch viele Paare berechnet werden. Wir haben dann ähnlich komplexe Verfahren verwendet, um moderne Hochdurchsatz-Experimente wie zum Bsp. CLIP-seq für die Detektion von RNA-Protein-Interaktionen. Hier muss ein komplexes Modell auf Basis einen Graph-Kernels ebenso auf zehn bis hundert von tausenden bekannten Bindestellen gelernt werden. Ein Graph-Kernel kodiert jede Bindestelle mit ihrer Struktur als ein Feature-Vektor von allen möglichen Sub-Graphen der Sequenz/Struktur. Ein weiterer wichtiger Einsatzgebiet, das ohne den Compute-Cluster nicht möglich gewesen wäre, ist der Freiburger Galaxy-Server. Er wurde im Rahmen des Sonderforschungsbereich Medizinische Epigenetik als zentrale Bioinformatik-Analyse eingeführt und hat bereits mehr als 200 Benutzer. Er ist hiermit einer der grösten Server in Deutschland, wir sind einer der führenden Gruppe in der Entwicklung von Galaxy, 500 der weltweit Galaxy ist ein Workflow-Management-System und erlaubt es, viele Aufgaben einfach als Standard-Workflows zu etablieren. Wir konnten sogar viele experimentelle Gruppen darin trainieren, dass sie einfache Standard-Aufgabe in der Analyse von Hochdurchsatz-Sequenzier-Daten selbst durchführen können. Ein sehr wichtiges Merkmal ist die Reproduzierbarkeit der Analysen, da das System die Versionen und Parameter der aufgerufenen Programmen und Datenbanken speichert.
Publications
- Exact pattern matching for RNA structure ensembles. In Proceedings of the 16th International Conference on Research in Computational Molecular Biology (RECOMB 2012)
Christina Schmiedl, Mathias Möhl, Steffen Heyne, Mika Amit, Gad M. Landau, Sebastian Will, and Rolf Backofen
(See online at https://doi.org/10.1007/978-3-642-29627-7_27) - GraphClust: alignment-free structural clustering of local RNA secondary structures. Bioinformatics, 28 no. 12 pp. i224-i232, 2012
Steffen Heyne, Fabrizio Costa, Dominic Rose, and Rolf Backofen
(See online at https://doi.org/10.1093/bioinformatics/bts224) - Navigating the unexplored seascape of premiRNA candidates in single-genome approaches. Bioinformatics, 28 no. 23 pp. 3034-41, 2012
Nuno D. Mendes, Steffen Heyne, Ana T. Freitas, Marie-France Sagot, and Rolf Backofen
(See online at https://doi.org/10.1093/bioinformatics/bts574) - CRISPRmap: an automated classification of repeat conservation in prokaryotic adaptive immune systems. Nucleic Acids Res, 41 no. 17 pp. 8034-44, 2013
Sita J. Lange, Omer S. Alkhnbashi, Dominic Rose, Sebastian Will, and Rolf Backofen
(See online at https://doi.org/10.1093/nar/gkt606) - SPARSE: Quadratic time simultaneous alignment and folding of RNAs without sequence-based heuristics. In Minghua Deng, et al. editors, Proceedings of the 17th International Conference on Research in Computational Molecular Biology (RECOMB 2013), volume 7821 of LNCS, pages 289-290. Springer Berlin Heidelberg, 2013
Sebastian Will, Christina Schmiedl, Milad Miladi, Mathias Möhl, and Rolf Backofen
(See online at https://doi.org/10.1007/978-3-642-37195-0_28) - Dynamic DNA methylation orchestrates cardiomyocyte development, maturation and disease. Nat Commun, 5 pp. 5288, 2014
Ralf Gilsbach, Sebastian Preissl, Bjorn A. Gruning, Tilman Schnick, Lukas Burger, Vladimir Benes, Andreas Wurch, Ulrike Bonisch, Stefan Gunther, Rolf Backofen, Bernd K. Fleischmann, Dirk Schubeler, and Lutz Hein
(See online at https://doi.org/10.1038/ncomms6288) - GraphProt: modeling binding preferences of RNA-binding proteins. Genome Biol, 15 no. 1 pp. R17, 2014
Daniel Maticzka, Sita J. Lange, Fabrizio Costa, and Rolf Backofen
(See online at https://doi.org/10.1186/gb-2014-15-1-r17) - An updated evolutionary classification of CRISPR-Cas systems. Nat Rev Microbiol, 2015
Kira S. Makarova, Yuri I. Wolf, Omer S. Alkhnbashi, Fabrizio Costa, Shiraz A. Shah, Sita J. Saunders, Rodolphe Barrangou, Stan J. J. Brouns, Emmanuelle Charpentier, Daniel H. Haft, Philippe Horvath, Sylvain Moineau, Francisco J. M. Mojica, Rebecca M. Terns, Michael P. Terns, Malcolm F. White, Alexander F. Yakunin, Roger A. Garrett, John van der Oost, Rolf Backofen, and Eugene V. Koonin
(See online at https://doi.org/10.1038/nrmicro3569) - RC3H1 post-transcriptionally regulates A20 mRNA and modulates the activity of the IKK/NF-kappaB pathway. Nat Commun, 6 pp. 7367, 2015
Yasuhiro Murakawa, Michael Hinz, Janina Mothes, Anja Schuetz, Michael Uhl, Emanuel Wyler, Tomoharu Yasuda, Guido Mastrobuoni, Caroline C. Friedel, Lars Dolken, Stefan Kempa, Marc Schmidt-Supprian, Nils Bluthgen, Rolf Backofen, Udo Heinemann, Jana Wolf, Claus Scheidereit, and Markus Landthaler
(See online at https://doi.org/10.1038/ncomms8367) - Tandem Stem-Loops in roX RNAs Act Together to Mediate X Chromosome Dosage Compensation in Drosophila. Mol Cell, 51 no. 2 pp. 156-73, 2013
Ibrahim Avsar Ilik, Jeffrey J. Quinn, Plamen Georgiev, Filipe Tavares-Cadete, Daniel Maticzka, Sarah Toscano, Yue Wan, Robert C. Spitale, Nicholas Luscombe, Rolf Backofen, Howard Y. Chang, and Asifa Akhtar
(See online at https://doi.org/10.1016/j.molcel.2013.07.001)