Observable operator networks: generalizing observable operator models to multivariate random processes with interacting continuous variables
Final Report Abstract
Das Projekt befasste sich mit der Aufgabe, aus empirisch beobachteten Zeitreihendaten mit automatisierten Rechenverfahren (sog. Lernalgorithmen) mathematische Modelle der Systeme abzuleiten (zu "lernen"). Aus solchen Modellen können dann wiederum vielfältige Rückschlüsse auf das reale physikalische System gezogen werden, welches die beobachteten Zeitreihendaten erzeugte. Solche gelernten Modelle können auch praktisch dazu verwendet werden, die Zukunft einer bis zum Jetztzeitpunkt gemessenen Zeitreihe vorherzusagen, oder bestimmte Muster zu erkennen, oder das beobachtete System online zu steuern. Speziell beschäftigte sich das Projekt mit einer besonderen Klasse von Modellen, den observable operator models (OOMs). Die Verwendung dieser Modelle ist besonders dann angebracht, wenn die beobachteten Systeme ausgeprägte Zufallskomponenten aufweisen, und wenn zukünftige Beobachtungen von zurückliegenden Beobachtungen beeinflusst werden – man spricht dann von stochastischen Prozessen mit Gedächtnis. Beispiele für solche Datenreihen sind Sprachsignale, DNA- oder Proteinsequenzen, oder medizinische Signalableitungen. OOMs und einige eng verwandte Modellklassen sind etwa seit dem Jahr 2000 eingeführt worden. Sie haben im maschinellen Lernen besondere Aufmerksamkeit gefunden, da es für sie Lernalgorithmen gibt, die im Prinzip das korrekte Systemmodell berechnen können, jedenfalls wenn ausreichend große Datenmengen zur Verfügung stehen. Die vorher bekannten Modelle und Lernalgorithmen für stochastische Prozesse mit Gedächtnis lieferten keine mathematische Garantie für Modellkorrektheit. Bei Projektstart waren elementare Versionen von OOM-Lernalgorithmen bekannt. Die Projektziele bestanden darin, diese elementaren Verfahren in verschiedener Weise zu verallgemeinern und so robust auszugestalten, dass sie zuverlässig auch auf großen und "schwierigen" Datensätzen funktionieren. Das angepeilte Anwendungsszenario war die Analyse von EEG-Daten. Aus den Messreihen der vielen Elektroden sollte ein Modell errechnet werden, das Rückschlüsse darauf erlaubt, welche Hirnpartien kausal auf andere einwirken, und das Eintreten von epileptischen Anfällen vorhersagen. Dies Forschungsprogramm stand im Kontext eines jungen Teilgebiets des maschinellen Lernens, der sogenannten spectral learning Methoden. In diesem Gebiet befassten (und befassen) sich eine Reihe internationaler Forschungsgruppen mit Modellen und Algorithmen, die ihren mathematischen Kern mit OOMs teilen. Unser Projekt stieß bereits kurz nach Beginn auf die Hürde, dass die bis dato bekannten Lernalgorithmen nicht mehr zuverlässig funktionierten, wenn die eingegebenen Messreihen die Größe und Komplexität von EEG-Messungen erreichten. Dies verwies die Projektarbeit zurück in die algorithmische Grundlagenforschung. Zunächst wurden die bekannten OOM-Lernverfahren und andere Verfahren des spectral learning mathematisch vereinheitlicht, um der tieferliegenden Ursache für die aufgetretene "Lernschwäche" bei sehr komplexen Daten auf die Spur zu kommen. Diese Ursache konnte auch identifiziert werden. Zu ihrer Beseitigung wurden heuristische Verfahren entwickelt, die aber noch immer nicht vollständig befriedigen. Im Laufe dieser (sehr ausgedehnten und mühsam-detaillierten) Untersuchungen entstanden als "Nebenergebnisse" (i) eine hocheffiziente, öffentlich verfügbar gemachte Programmierumgebung, (ii) eine ausführliche Publikation in einem Leitjournal des maschinellen Lernens, das Forschern in der Anwendung viele Handreichungen zu einem adäquaten Design ihrer Lernalgorithmen gibt, (iii) ein Verfahren, mit dem Lücken in den vorhandenen Zeitreihen ("missing values") geschlossen werden können. Diese Ergebnisse verhalfen tatsächlich 2015 einer Arbeitsgruppe in der Computational Molecular Biology an der FU Berlin dazu, mit OOMs nahezu perfekte Modelle für Konfigurationswandlungen in Biomolekülen zu errechnen. Solche Konfigurationswandlungen bilden wiederum die Grundlage für die biologische Wirksamkeit solcher Moleküle.
Publications
- (2015): Links Between Multiplicity Automata, Observable Operator Models and Predictive State Representations - a Unified Learning Framework. Journal of Machine Learning Research 16, 103-147
Michael Thon, Herbert Jaeger