Project Details
Peak intensity prediction in mass spectrometry data using machine learning algorithms
Applicant
Professor Dr.-Ing. Tim Nattkemper, Ph.D., since 7/2006
Subject Area
Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing
Term
from 2006 to 2010
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 16666471
Massenspektrometrie ist eine in der Proteomforschung intensiv eingesetzte Technik zur Identifikation von Protein- und DNA-Sequenzen. Die gemessen Massenspektren liefern Information über die Sequenz einzelner Fragmente. Dabei entspricht die Position eines signifikanten Signals im Spektrum der Masse eines Fragments, während die Signalintensität der relativen Auftrittshäufigkeit des Fragments entspricht. Die Gesamtheit der gemessenen Masse/Intensitäts-Paare eines Spektrums erlaubt Rückschlüsse auf die ursprüngliche Gesamtsequenz der analysierten Probe. In dem beantragten Projekt sollen Methoden entwickelt und untersucht werden, ein Massenspektrum auf Basis der Sequenz vorherzusagen. Während die Masse eines Peaks noch einfach aus der zugehörigen Sequenz zu bestimmen ist, ist die Vorhersage der entsprechenden Signalintensität ein ungelöstes Problem. Ausgehend von den jüngsten Entwicklungen auf dem Gebiet der künstlichen neuronalen Netze und des maschinellen Lernens soll im Rahmen dieses Projektes ein System entwickelt werden, welches moderne Lernverfahren zur Vorhersage von Signalintensitäten in Massenspektren einsetzt. Die verwendeten Verfahren ermöglichen es, den Zusammenhang zwischen der Sequenz eines Fragmentes und der zugehörigen Signalintensität aus einer Menge von Beispielen zu erlernen und sind daher unabhängig von einer expliziten mathematischen Modellierung des zugrunde liegenden physikalischen Fragmentierungsprozesses. Hierzu soll die biologische Sequenzinformation der Beispieldaten in eine vektorielle Repräsentation überführt werden, welche eine Analyse und Verarbeitung mittels numerischer Lernverfahren ermöglicht. Die so trainierten Lernalgorithmen können anschließend zur Vorhersage der Signalintensität neuer Fragmente eingesetzt werden. Die Möglichkeit der Vorhersage von Signalintensitäten für gegebene Protein oder DNA-Fragmente ist ein wichtiger Beitrag zur Verbesserung moderner Techniken der datenbankbasierten Vergleichsanalyse. Während etablierte Techniken nur die Masse signifikanter Signale zur Datenbanksuche verwenden, würde eine Erweiterung der Datenbankanfrage durch Signalintensitäten die Effizienz und Zuverlässigkeit derartiger Verfahren steigern. Die Interpretation und Analyse des Lernprozesses selber erlaubt es weiterhin, neue Erkenntnisse über den Mechanismus der Fragmentierung biologischer Moleküle zu erlangen.
DFG Programme
Research Grants
Ehemaliger Antragsteller
Professor Dr. Sebastian Böcker, until 7/2006