Project Details
Flexible Beschreibung und Optimierung biologischer Randbedingungen zur Aufdeckung von Sequenz-Struktur-Beziehungen von Proteinen
Applicant
Professor Dr. Ralf Zimmer
Subject Area
Theoretical Computer Science
Term
from 1998 to 2006
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 5153772
Der zur Zeit erfolgversprechendste Ansatz für die theoretische Proteinstrukturvorhersage sind homologiebasierten Verfahren, welche im Rahmen der Modellierung über die üblichen Datenbanken hinausgehende Informationen aus verschiedenen Quellen verwerten können. Solche Quellen sind z.B. zusätzliche experimentelle Daten aus speziellen Versuchen, Daten aus theoretischen "ab initio"-Modellierungen, aber auch menschliches Expertenwissen. Das wesentliche Problem besteht dabei in der Tatsache, daß die gängigen Vorhersageverfahren exakt formulierte Algorithmen bzw. Optimierungsverfahren für bestimmte genau definierte Kostenfunktionen, die zusätzlichen Informationen jedoch zumeist von unscharfer Natur sind. Weiterhin können wesentliche Kontextinformationen, wie sie z.B. in Form von Netzwerken des Sequenz-Struktur-Raums verfügbar sind bzw. werden - sowohl über nahe verwandte Proteine und Proteinfamilien und insbesondere auch über sehr unähnliche Proteine - nur sehr unzureichend in den herkömmlichen Verfahren genutzt werden. Im vorliegenden Projekt sollen diese Probleme auf Grundlage der vorangegangenen Forschungen durch zwei konvergente Vorgehensweisen gelöst werden: Zum einen werden die bekannten algorithmischen Techniken auf ihre Eignung untersucht und ggf. erweitert, zusätzliche Informationen nutzbringend und effizient verwerten zu können. Das umfasst neben der Nutzung von in ProML spezifizierten Constraints, das Family/Cluster-Alignment zum Alignment gegen mehrere Subcluster Repräsentanten gleichzeitig, sowie die Nutzung der Netzwerkbeziehungen von Proteinen und Proteinclustern. Das Hauptaugenmerk gilt dabei dem Sequenz-Struktur-Alignment mittels Branch & Bound Methoden wie RDP (Rekursive Dynamische Programmierung), aber auch andere Anwendungsgebiete aus den Bereichen Sequenzanalyse und Proteinstrukturvergleich wie Multiples Alignment (von Sequenzen und Strukturen) Proteinfamilienklassifikation und -diskrimierung; Charakterisierung, Beschreibung und Visualisierung des Sequenz-StrukturRaums; Faltungserkennung; Sequenz- und 3D-Motiv-Identfizierung und Suche werden adressiert. Eine zusätzliche Komponente des Projekts ist die Nutzung von Kontextwissen: Dazu werden nicht nur die Eigenschaften von Sequenz-Strukturclustern geeignet repräsentiert, sondern auch die Nachbarschaftsbeziehungen zwischen den Clustern. Das Vorhersageverfahren soll die Relationen zwischen den Proteinfamilien in dem entstehenden Netzwerk nutzen, einerseits zur Diskriminierung und Klassifizierung, andererseits zur Verbesserung der Alignments durch Kompatibilität mit gemeinsamen bzw. diskrimierenden Eigenschaften. Dabei werden sowohl positive (nahe Verwandtschaft, Anwesenheit gemeinsamer Eigenschaften) als auch negative (entfernte oder keine Verwandtschaft, Abwesenheit charakteristischer Features) berücksichtigt. Zum anderen ist es daneben notwendig, der exakten rechnergestützten Erfassung zusätzlicher Informationen in für obengenannte Algorithmen verwertbarer Form eine theoretische und praktische Grundlage zu verleihen. Dazu wird die Beschreibungssprache weiterentwickelt, Techniken zur Ableitung charakteristischer Eigenschaften (Feature extraction and selection, association rule mining) entwickelt und möglichst scharfe Schranken für die spezifizierten Eigenschaften bestimmt und diese entweder schon für die Generierung von Alternativen oder die spätere Bewertung und Auswahl dieser alternativen Lösungen im BkB Verfahren verwendet. Dabei wird auf frühere Forschungsergebnisse und erstellte Softwarewerkzeuge insbesondere aus PROSEQO-L aber auch aus PROPHY (I+II) Bezug genommen.
DFG Programme
Priority Programmes