Die DNA aus der Codierungsperspektive
Zusammenfassung der Projektergebnisse
Die DNA wurde aus der Sicht der Informationstheorie und der Kommunikation untersucht, um ein tieferes Verständnis der DNA-Eigenschaften zu gewinnen, die dann ingenieurwissenschaftliche und biologische Aspekte verknüpfen. Diverse neue Aspekte wurden beleuchtet und schon bekannte Eigenschaften wurden verständlich und konnten sogar formell bewiesen werden. Indem Mutationen und ihre Wahrscheinlichkeiten als ein Kommunikationskanal betrachtet wurden und die "Mutual Information” über die Zeit berechnet wurde, realisiert durch einen Kanalmatrix-Exponenten, konnte das Mapping zwischen Codons und Aminosauren bewiesen werden. Besonders betrifft dies die synonymen Beziehungen und die Wobble-Regel, die direkt aufgezeigt werden konnten. Sogar konnte man erkennen, dass ab einer gewissen “Zeit” der Informationsgehalt eines Basenpaares, d.h. einer quaternaren Reprasentation, lediglich ein einzelnes Bit zur Verfügung stellt. Dies konnte beispielsweise nur die Unterscheidung zwischen Purinen und Pyrimidinen erlauben. Wir konnten zeigen, dass die Shannon-Entropie einen geeigneten Indikator für biologisch relevante DNA-Eigenschaften bildet. Mit einer weit gefassten Untersuchung konnten wir Promoter-Eigenschaften identifizieren, die sensitiv bzgl. der drei-dimensionalen DNA-Struktur sind und die zeitliche Gene-Expression bestimmen. Mit der gleichen Vorgehensweise identifizierten wir sich wiederholende Sequenz-Eigenschaften, die Grundpegel der Gen-Expression modulieren. Auf der Grundlage solcher Kenntnisse erscheinen Promoter-Designs mit gewünschten Eigenschaften für die synthetische Biologie in Bereich des Machbaren und erlauben eine stärker kontrollierbares Engineering in der Biologie und Biotechnologie. Weiterhin konnten wir Reorganisationen in der Gen-Anordnung quantifizieren, die Muster der Gen-Migration in der Evolution bakterieller Chromosomen bilden. Diese Arbeiten zeigten die fundamentale Kräfte auf, die die Evolution bakterieller Chromosomen bestimmen. Damit wurde der Weg bereitet, in zuverlässigerer Weise stabilere synthetische Chromosomen zu erzeugen. Auf der Grundlage informationstheoretischer Eigenschaften wie Entropien (Shannon und Gibbs), Mutual Information, Kullback-Leibler-Divergenz, und Markov-Modellen, ist es uns gelungen, innerhalb desselben Organismus oder zwischen Organismen essentielle Gene zu erkennen, wobei wir Bakterien, Archaeon, und Eukaryoten untersucht haben. Zur Markov-Modellierung mussten wir natürlich zuvor die Ordnung schätzen. Unsere Arbeiten zu essentiellen und nicht-essentiellen Genen führte zu einer Kooperation und Veröffentlichungen mit Kollegen aus Israel. Hierdurch entwickelte sich dieser Projektteil zu einem deutlich umfangreicheren als ursprünglich angenommen. Hierdurch mussten Arbeiten zu Gene-regulatorischen Netzwerken etwas zurückstehen und konnten nur gestreift werden. Wir sehen diese Netzwerke als die hierarchisch höchste Struktur von Fehlerkorrekturmechanismen. Bislang haben wir sogenannte Synthetische Latalitäts-Netzwerke betrachtet. Diese können als die Realisierung eines Wiederholcodes angesehen werden, jedoch ist dies nicht nur begrenzt auf die Duplizierung von Genen oder einfachen funktionalen Ersatz. Es existieren Pfade in solchen Netzen, die Redundanz zur Verfügung stellen. Somit erscheinen Mehr-Level-Code-Graphen eine geeignete Beschreibung zu sein. Eine gemeinsame Betrachtung von Co-regulatorischen Netzen hat bislang nicht zu einem besseren Verständnis der Verbindungsgrade bestimmter Gene geführt, nicht einmal von zentralen Knoten mit vielen Verbindungen. Weitere Untersuchungen zu Gen-Netzwerken sind auf jeden Fall nötig und auch geplant. Das Projekt führte nicht nur zu internationalen Kooperationen, sondern auch zu einem zentralen Beitrag bei einem NSF-Workshop, zu dem wir eingeladen wurden. NSF versucht eine Kooperation zwischen Ingenieur- und Lebens-Wissenschaften zu initiieren, wohl in Anlehnung an das frühere DFG-Schwerpunktprogramm. NSF hat gleichermaßen festgestellt, dass eine solche Kooperation zu signifikanten Fortschritten im Verständnis der genetischen Struktur und Funktion führen kann. Dies war auch unsere eigene Erfahrung aus der gemeinsamen Arbeit.
Projektbezogene Publikationen (Auswahl)
- “Categorization of species based on their microRNAs employing sequence motifs, information-theoretic sequence feature extraction, and k-mers.” EURASIP Journal on Advances in Signal Processing 2017.1, no. 70, 2017
Malik Yousef, Dawit Nigatu, Dalit Levy, Jens Allmer, and Werner Henkel
(Siehe online unter https://doi.org/10.1186/s13634-017-0506-8) - “Computational identification of essential genes in prokaryotes and eukaryotes,” Peixoto N., Silveira M., Ali H., Maciel C., van den Broek E. (eds) Biomedical Engineering Systems and Technologies, Communications in Computer and Information Science, vol. 881, Springer, Cham., 2017
Dawit Nigatu and Werner Henkel
(Siehe online unter https://doi.org/10.1007/978-3-319-94806-5_13) - “Prediction of essential genes based on machine learning and information theoretic features.” Proceedings of BIOSTEC 2017 - BIOINFORMATICS, pp. 81–92, 2017
Dawit Nigatu and Werner Henkel
(Siehe online unter https://doi.org/10.5220/0006165700810092) - “Sequence-based information-theoretic features for gene essentiality prediction,” BMC bioinformatics, vol. 18(1), no. 473, 2017
Dawit Nigatu, Patrick Sobetzko, Malik Yousef, and Werner Henkel
(Siehe online unter https://doi.org/10.1186/s12859-017-1884-5) - The DNA from a coding perspective, Information- and Communication Theory in Molecular Biology, Springer International Publishing, 2018
Werner Henkel, Georgi Muskhelishvili, Dawit Nigatu, and Patrick Sobetzko
(Siehe online unter https://doi.org/10.1007/978-3-319-54729-9_12) - “Multilevel capacities for the codon mutation channel,” 2018 10th International Symposium on Turbo Codes and Iterative Information Processing (ISTC), Hong Kong, 2018
Dawit Nigatu and Werner Henkel
(Siehe online unter https://doi.org/10.1109/ISTC.2018.8625354) - “MoCloFlex: a modular yet flexible cloning system,” Front Bioeng Biotechnol, 7:271, 2019
Carlo A Klein, Marc Teufel, Carl J Weile, and Patrick Sobetzko
(Siehe online unter https://doi.org/10.3389/fbioe.2019.00271) - “ICCT in biology at the molecular and cellular level - some steps in unveiling the protection and prioritization in the DNA,” BioTICC NSF workshop (Biology through Information Communication & Coding Theory), Alexandria, VA, 2020
Werner Henkel
- “The bacterial promoter spacer modulates promoter strength and timing by length, TG-motifs and DNA supercoiling sensitivity,” Nature Scientific Reports, 2021
Carlo A Klein, Marc Teufel, Carl J Weile, and Patrick Sobetzko
(Siehe online unter https://doi.org/10.1038/s41598-021-03817-4) - “The role of replication-induced chromosomal copy numbers in spatio-temporal gene regulation and evolutionary chromosome plasticity,” bioRxiv
Marc Teufel, Werner Henkel, and Patrick Sobetzko
(Siehe online unter https://doi.org/10.1101/2022.03.30.486354)