Compressed Suffix Trees: Design, Construction, and Applications

Antragsteller Professor Dr. Enno Ohlebusch

Mitantragsteller Professor Mohamed Abouelhoda, Ph.D.

Fachliche Zuordnung Theoretische Informatik

Förderung Förderung von 2012 bis 2020

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 206825075

Erstellungsjahr 2017

Zusammenfassung der Projektergebnisse

Wenn ein Text (z.B. die DNA-Sequenz eines Chromosoms) oder eine Sammlung von Texten (z.B. mehrere Chromosomen oder Genome) nicht oder nur selten verändert wird, dann lohnt es sich in vielen Anwendungen, den Text in einem Vorverarbeitungsschritt zu indizieren. Die erstellte Index-Datenstrukutur wird dann benutzt, um Anwendungen (z.B. den Vergleich zweier Genome) zu beschleunigen. Ein wesentliches Problem tritt bei der automatischen Verarbeitung von großen Datenmengen auf: Wenn der Index nicht mehr vollständig in den Hauptspeicher des benutzten Rechners passt, müssen Teile in den Sekundärspeicher ausgelagert werden. Da dies zu erheblichen Effizienzverlusten führt, war es das Ziel des Projektes, eine Bibliothek von grundlegenden Algorithmen zur Konstruktion von sehr kleinen Index-Datenstrukturen zu erstellen, die auch bei sehr großen Texten noch im Hauptspeicher gehalten werden können. Diese Software-Bibliothek steht nun öffentlich zur Verfügung. Die verwendete Index-Datenstruktur besteht aus vier Komponenten (einem FM-Index bestehend aus der Burrows-Wheeler Transformierten und deren Wavelet-Baum, einem Suffixarray, einem LCP-Array und einer sehr kleinen Repräsentation der Suffixbaumtopologie), und es wurden im Laufe des Projektes Konstruktionsalgorithmen für alle vier Komponenten entwickelt, die bisherige Algorithmen verbesserten. Als Anwendung dieser Index-Datenstruktur wurden neuartige Algorithmen zur Repeat-Analyse und zur Pangenomanalyse entwickelt, die mit signifikant weniger Hauptspeicher auskommen als bisherige Algorithmen.

Projektbezogene Publikationen (Auswahl)

Space-eﬃcient computation of maximal and supermaximal repeats in genome sequences. In Proc. 19th International Symposium on String Processing and Information Retrieval, volume 7608 of Lecture Notes in Computer Science, pages 99–110. Springer-Verlag, 2012
T. Beller, K. Berger, and E. Ohlebusch
Computing the longest common preﬁx array based on the Burrows-Wheeler transform. Journal of Discrete Algorithms, 18:22–31, 2013
T. Beller, S. Gog, E. Ohlebusch, and T. Schnattinger
Space-eﬃcient construction of the Burrows-Wheeler transform. In Proc. 20th International Symposium on String Processing and Information Retrieval, volume 8214 of Lecture Notes in Computer Science, pages 5–16. Springer-Verlag, 2013
T. Beller, M. Zwerger, S. Gog, and E. Ohlebusch
Computing the Burrows-Wheeler transform of a string and its reverse in parallel. Journal of Discrete Algorithms, 25:21–33, 2014
E. Ohlebusch, T. Beller, and M. Abouelhoda
(Siehe online unter https://doi.org/10.1016/j.jda.2013.06.002)
From theory to practice: Plug and play with succinct data structures. In Proc. 13th International Symposium on Experimental Algorithms, volume 8504 of Lecture Notes in Computer Science, pages 326–337. Springer, 2014
S. Gog, T. Beller, A. Moﬀat, and M. Petri
(Siehe online unter https://doi.org/10.1007/978-3-319-07959-2_28)
A representation of a compressed de Bruijn graph for pan-genome analysis that enables search. Algorithms for Molecular Biology, 11:20, 2016
T. Beller and E. Ohlebusch
(Siehe online unter https://doi.org/10.1186/s13015-016-0083-7)
Graphical pan-genome analysis with compressed suﬃx trees and the Burrows-Wheeler transform. Bioinformatics, 32(4):497–504, 2016
U. Baier, T. Beller, and E. Ohlebusch
(Siehe online unter https://doi.org/10.1093/bioinformatics/btv603)
Space-eﬃcient parallel construction of succinct representations of suﬃx tree topologies. Journal of Experimental Algorithmics, 22:1.1, 2017
U. Baier, T. Beller, and E. Ohlebusch
(Siehe online unter https://doi.org/10.1145/3035540)

Servicenavigation

Hauptnavigation

Compressed Suffix Trees: Design, Construction, and Applications

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Servicenavigation

Hauptnavigation

Compressed Suffix Trees: Design, Construction, and Applications

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Textvergrößerung und Kontrastanpassung