Detailseite
Projekt Druckansicht

Semantische Textanalyse zur qualitätskontrollierten Extraktion klinischer Phänotyp- Information im Healthcare Integrated Biobanking STAKI2B2

Fachliche Zuordnung Epidemiologie und Medizinische Biometrie/Statistik
Förderung Förderung von 2016 bis 2023
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 315098900
 
Die Verfügbarkeit hochqualitativer Biomaterialien bildet eine der wesentlichen Grundlagen für eine nachhaltige und reproduzierbare translationale biomedizinische Forschung. Dies gilt sowohl im Kontext der explorativen, aber zunehmend auch für den Bereich der validierenden Forschung. So besteht eine grundlegende Skepsis darüber, inwieweit sich die aus einer Vielzahl von Ergebnissen präklinischer Untersuchungen ableitenden hohen Erwartungen auch wirklich in die klinische Praxis umsetzen lassen. Dies wird auch am Beispiel der Biomarkerentwicklung deutlich. Es besteht ein großes Missverhältnis zwischen der Vielzahl von Studien zu neuen Biomarkern und der tatsächlichen Anzahl klinisch validierter Anwendungen. Ein wesentliches Problem ist die fehlende Beachtung von Qualitätsunterschieden in Probenmaterialien und die nicht ausreichende Validierung potentieller Marker an Vergleichskollektiven mit definierten, zur Zielkrankheit differierenden Erkrankungen und Komorbiditäten. Während die infrastrukturellen Voraussetzungen zur hochqualitativen Sammlung und Einlagerung entsprechender Bioproben in vielen klinischen Einrichtungen inzwischen durch den Aufbau und Betrieb professioneller Biobanken gewährleistet ist, mangelt es an routinemäßigen Arbeitsabläufen, valide Phänotypdaten zu erheben, um damit valide Vergleichskollektive zu bestimmen und deren Proben für ein hochqualitatives Biobanking zu selektionieren. Im beantragten Projekt sollen diese Informationen mit Verfahren der automatischen Sprachverarbeitung aus klinischen Dokumenten maschinell extrahiert werden. Hierzu wird eine Textanalytik-Pipeline aufgebaut, die mit Verfahren des semi-überwachten Maschinellen Lernens relevante medizinische Entitäten (wie Krankheiten, Arzneien, Diagnosen usw.) und Beziehungen zwischen diesen Entitäten (etwa die Wirksamkeit oder Dosierung von Medikamenten bezüglich einer Krankheit, Laborwerte für die Diagnostik) aus klinischen Dokumenten (Arztbriefen, Radiologie-oder Pathologieberichte usw.) automatisch bestimmt. Die automatische Textanalytik bildet dann die Grundlage dafür, aus unstrukturierten medizinischen Dokumenten des Krankenhaus-informationssystems des Universitätsklinikum Jena medizinische Kontextdaten zu berechnen und für eine strukturierte Auswertung so zur Verfügung zu stellen, dass Proben definierter Patientenkollektive bei deren Eintreffen im Routinelabor in Echtzeit selektioniert und deren Restmaterial, dass für die Diagnostik nicht benötigt wird, für den Aufbau einer Vergleichsprobenbank verwendet werden kann. Ein entsprechendes Informationsextraktionssystem für deutschsprachige klinische Dokumente sowie seine Integration in den klinischen Workflow ist bislang in keinem deutschen Klinikum verfügbar und hat, über die genannte exemplarische Anwendung zur Erhebung validierter Phänotypdaten, Selektion definierter Patientenkollektive und Gewinnung hochqualitativer Biomaterialien hinaus, weitreichende Implikationen für die translationale Medizin.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung