Comparison of protein binding cavities with neural networks: from structure to function and drug design
Final Report Abstract
Durch das Humangenomprojekt und sich anschließende Initiativen der "Structural Genomics" haben die Informationen über die Struktur von Proteinen in den vergangenen Jahren rasant zugenommen. Um diese ständig wachsenden Datenflut effektiv in der Praxis nutzen zu können, sind immer bessere Algorithmen nötig. In diesem Projekt wurde eine effiziente Methode entwickelt, um Ähnlichkeiten in SubStrukturen von Proteinbindetaschen aufzufinden. Dazu wurden die Bindetaschen systematisch in so genannte Oberflächenpatches zerlegt. Diese Oberflächenpatches sollten von Clusteralgorithmen automatisch den unterschiedlichen Enzymfamilien zugeordnet werden. Die biologisch relevanten Gemeinsamkeiten in den Bindetaschen sollten dabei identifiziert werden. Zunächst musste getestet werden, ob die Algorithmen in der Lage sind, die Unterschiede in den Reaktionstypen der Enzyme (EC-Nummer) richtig zu detektieren. Dazu wurde ein Validierungsdatensatz aus Bindetaschen zu verschiedenen Enzymklassen erzeugt. Die dabei verwendeten Bindetaschen wiesen keine über den Reaktionsmechanismus oder Ähnlichkeiten der Substrate begründbaren Gemeinsamkeiten in ihren aktiven Zentren auf. Mit einem weiteren Validierungsdatensatz konnte getestet werden, ob Gemeinsamkeiten zwischen den Bindetaschen richtig erkannt werden. Die Patches wurden in einem ersten Ansatz durch die Verteilungsparameter von Höhendaten beschrieben (SectorGeoMap). Tests mit den Clusteralgorithmen Kmeans, Single Linkage und Ward haben hierbei unbefriedigende Ergebnisse erzielt. Bei allen drei Verfahren waren über 70% der Cluster Mischcluster, die keiner eindeutigen EC-Nummer zugeordnet werden konnten. Um die Klassifizierung zu verbessern, wurde nach besseren Darstellungen der Oberflächenpatches gesucht. Hierzu wurden die Koeffizienten von Oberflächenwavelets zur Beschreibung der Patchoberfläche (WaveGeoMap) verwendet. Mit diesem Ansatz konnten die Oberflächenpatches genauer beschrieben werden. Die Klassifizierung verbesserte sich jedoch nicht wesentlich. Da die Clusterung mit Standartmethoden nicht zufriedenstellend war, wurde eine Visualisierungsmethode für Patches entwickelt, um strukturelle Typen von Bindetaschen zu entdecken. Ein emergenles selbstorganisierendes neuronales Netz (ESOM) wurde benutzt, um den hochdimensionalen Vektor, der ein Patch beschreibt, auf eine zweidimensionale Schicht von Neuronen zu projizieren. Die entstandene Abbildung wird als topographische Karte bezeichnet und graphisch als U*-Matrix dargestellt. In dieser Darstellung wurden die Vektoren in eine Landschaft projiziert. wobei verschiedene Gruppen in verschiedenen Tälern landen, die durch Gebirgszüge getrennt werden. Auf diese Weise wird es möglich, hochdimensionale Datensätze visuell zu erforschen. Es hat sich gezeigt, dass diese Projektion in der Lage ist, die Patches nach dazugehöriger EC-Nummer zu trennen. Um Ähnlichkeiten zwischen den Bindetaschen zu finden, wurde ein Verfahren entwickelt, welches die topologische Karte mit einer dichte- und abstandsbasierten Methode in zusammengehörige Cluster unterteilt. Dieses Cluster verfahren ergab bei der SectorGeoMap Darstellung nur 15% Mischcluster und bei WaveGeoMap sogar gar keine Mischcluster. Mit dieser Methode ist es sowohl möglich, die Zusammengehörigkeit von Patches zu visualisieren als auch funktionelle Gemeinsamkeiten der Bindetaschen zu erkennen.
Publications
- Kupas, K. '.Vergleich von Proteinbindetaschen unter Verwendung neuronaler Netze: von der Struktur zur Funktion und zum Ligandendesign (Dissertation 2006)
- Kupas, K., Klebe, G., Ultsch, A.: An algorithm for finding similarities in protein active sites, Matthew He, Giri Narasimhan, Sergei Petoukhov (Eds), In Advances in Bioinformatics and its Applications, Proceedings of the International Conference, Nova Southeastern University, Fort Lauderdale. Florida, USA, World Scientific, (2004), pp. 373-380
- Kupas, K., Klebe, G., Ultsch, A.: Comparison of substructiiral epitopes in enzyme active sites using self-organizing maps. Journal of Computer-Aided Molecular Design 18(2004),''pp. 697-708
- Kupas, K., Ultsch, A., Klebe, G.: Large scale analysis of protein-binding cavitiesusing self-organizing maps andwaveiel-based surface patches to describe functional properties, selectivity discrimination, and putative cross-reactivity (Proteins 2007)
- Kupas, K., Ultsch, A.: Data Mining in Protein Binding Cavities, Weihs, C., Gaul, W. (Eds), In Classification - the Ubiquitous Challenge, Proceedings 28th Annual Conference of the German Classification Society (GfKl 2004), Dortmund, Germany, Springer, Heidelberg, (2005), pp. 354-361