Detailseite
Projekt Druckansicht

Lifespan AI - Projekt D1: Tiefe Integration von Langzeit-Gesundheitsdaten

Fachliche Zuordnung Epidemiologie und Medizinische Biometrie/Statistik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung seit 2022
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 459360854
 
Langzeit-Gesundheitsdaten umfassen das gesamte Leben von Individuen oder Kohorten. Sie stammen aus verschiedenen und veränderlichen Quellen und sind typischerweise lückenhaft und variabel. Die verschiedenartigen Quellen und ihre wechselnde zeitliche Auflösung schon innerhalb einer Kohortenstudie erschweren die computerisierte Integration deutlich. Dies verschärft sich, sollen mehrere Studien gemeinsam ausgewertet werden, die nur einige der Quellen gemein haben und zeitlich nur teilweise überlappen. Um solche Daten für computerbasierte Auswertung zu integrieren, wird das vorliegende Projekt die beschriebenen Hindernisse adressieren. Die entwickelten Methoden auf Basis von Deep-Learning-Ansätzen sollen dabei ein hohes Maß an Generalisierbarkeit und Anwendbarkeit erreichen.Wir werden lernbare und einfach übertragbare Embedding-Modelle einsetzen, die auf zeitaufgelösten sogenannten „Einheiten“ basieren, die eine oder mehrere Datenquellen umfassen. Konzeptuell baut dieser Ansatz auf sogenannten Attention-Modulen auf, die aus Transformer-Architekturen zum Beispiel in der Sprachverarbeitung und Übersetzung bekannt sind. Die entstehenden Embeddings müssen robust generalisieren und sich für „transfer-learning“-Ansätze eignen. Dass dies erreicht wird, stellen wir durch die Verwendung einzigartiger Datensätze sicher, die dem Projekt zur Verfügung stehen werden. Die im Projekt genutzten Datensätze aus zwei großen deutschen Bevölkerungsstudien umfassen eine große Bandbreite an zeitlichen Auflösungen und Datentypen, etwa Fragebögen, Sprachaufnahmen und medizinische Bilder. Unsere Bibliothek trainierter Embedding-Modelle für diese Quellen soll leicht auf neue Daten aus weiteren Studien übertragbar sein.Weiterhin werden wir anhand spezifischer Anwendungsfälle demonstrieren, wie sich Embedding-Räume eignen, um verschiedene Vorhersagen zu unterstützen. Das können zum Beispiel ergänzte Daten zu einem Zeitpunkt sein, fehlende Zeitpunkte einer oder mehrerer Datenquellen, oder sogar Vorhersagen zukünftiger Entwicklungen. Verlässliche Vorhersagen werden von bestimmten Eigenschaften der Embedding-Räume abhängen. Daher ist es ein wichtiges wissenschaftliches Ziel des Projektes, bedeutungsvolle Metriken zu erforschen, um Embedding-Räume quantitativ zu charakterisieren, zum Beispiel hinsichtlich der Datenqualität, Ausreißer, Bias, und anderer Inkonsistenzen, die die prädiktive Kapazität limitieren können. Die Ergebnisse des Projekts haben das Potential, die Datenwissenschaften im Bereich der Gesundheitsdaten maßgeblich zu beeinflussen, denn hier sind zeitaufgelöste Daten mit einer großen Variabilität hinsichtlich der Datentypen und -Qualitäten die Regel. Da unser Ansatz grundlegend unterschiedliche Datentypen und Informationsquellen mit Veränderungen über lange Beobachtungszeiträume vereinigt, erwarten wir, dass die Ergebnisse auch auf Bereiche jenseits der Gesundheitswissenschaften übertragbar sein werden.
DFG-Verfahren Forschungsgruppen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung