Computational models for metatranscriptome analysis
Zusammenfassung der Projektergebnisse
Im Rahmen des Projektes wurden neue bioinformatische Ansätze für die Metatranskriptomik entwickelt, um effiziente Lösungen für bestehende Probleme bei der statistischen Analyse der Genexpression in diversen Organismusgemeinschaften zu realisieren. Dabei war es insbesondere wichtig, Werkzeuge zu schaffen, die auch auf große RNA-Seq Datensätze mit einer Vielzahl von unbekannten Organismen ohne verfügbares Referenzgenom anwendbar sind. Hier konnten erfolgreich Methoden des maschinellen Lernens für die schnelle Erkennung von ribosomalen RNA-Genen und für die kombinierte Klassifikation von Proteinkodierenden Sequenzen implementiert werden. Insbesondere die taxonomisch funktionelle Klassifikation mit UProC-TX ermöglicht aufgrund der hohen Geschwindigkeit eine Analyse der rohen Sequenzdaten ohne die Probleme einer vorherigen Assemblierung in Kauf nehmen zu müssen. In Bezug auf die differentielle Expressionsanalyse von metatranskriptomischen Daten wurde ein wesentliches Problem identifiziert, das bisher in seiner Tragweite noch nicht bekannt war. Es konnte gezeigt werden, dass für eine korrekte Analyse die Sequenzdaten nach Spezies zu trennen sind, um vorab eine Organismus-spezifische Normalisierung der Transkripthäufigkeiten vorzunehmen. Obwohl dieser Schritt in den meisten Fällen praktisch nur für einen Teil der Daten durchführbar ist, gibt es keine direkte Alternative, um systematische Fehler zu vermeiden. Diese Erkenntnis ist für alle zukünftigen Studien von großer Bedeutung und legt als aufwendige aber wirkungsvolle Maßnahme die parallele Sequenzierung des Metagenoms nahe. Damit ließen sich dann Draft-Genome als valide Referenz für die differentielle Expressionsanalyse rekonstruieren.
Projektbezogene Publikationen (Auswahl)
- Dinucleotide distance histograms for fast detection of rRNA in metatranscriptomic sequences In: German Conference on Bioinformatics (GCB'13) 2013:80-89
H. Klingenberg, R. Martinjak, F.O. Glöckner, R. Daniel, T. Lingner, P. Meinicke
- Land use type significantly affects microbial gene transcription in soil. Microbial ecology, 67(4):919-930, 2014
H. Nacke, C. Fischer, A. Thürmer, P. Meinicke, R. Daniel
(Siehe online unter https://doi.org/10.1007/s00248-014-0377-6) - Predicting the functional repertoire of an organism from unassembled RNAseq data. BMC Genomics, 15(1):1003, 2014
M. Landesfeind, P. Meinicke
(Siehe online unter https://doi.org/10.1186/1471-2164-15-1003) - Ultra-fast functional classification of short reads using UProC with Pfam and KEGG In: Mosig A, Rahnenführer J, Eisenacher M, Rahmann S. (2015) Invited presentations, junior research groups and research highlights at GCB 2015. PeerJ PrePrints 3:e1352v1
M. Landesfeind, R. Martinjak, H. Klingenberg, P. Meinicke
- UProC: tools for ultra-fast protein domain classification. Bioinformatics, 31(9):1382-1388, 2015
P. Meinicke
(Siehe online unter https://doi.org/10.1093/bioinformatics/btu843)