Interpretierbare Extraktion von charakterisierenden Merkmalen aus großskaligen medizinischen Bilddaten durch schwache Überwachung mit Text: Überbrückung der Unterschiede zwischen abstrakten Bildmerkmalen und menschlicher Sprache

Antragsteller Dr. Philipp Wesp

Fachliche Zuordnung Medizininformatik und medizinische Bioinformatik
Künstliche Intelligenz und Maschinelle Lernverfahren
Radiologie

Förderung Förderung seit 2024

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 553239084

Projektbeschreibung

Maschinelles Lernen (ML) kann als der modernste Ansatz für automatisierte Bildverarbeitungs- und Analyseaufgaben angesehen werden, einschließlich Anwendungen in der Radiologie. Trotz des Potenzials stellt die klinische Anwendung von ML eine Herausforderung dar. Aus Sicht des Anwenders ist ein Haupthindernis für die klinische Implementierung von ML die begrenzte Interpretierbarkeit der abstrakten Bildmerkmale, die von typischen ML-Modellen extrahiert werden. Diese Eigenschaft wirkt sich zwar nicht direkt auf die Leistung der derzeit eingesetzten ML-Modelle aus, kann aber die Verständlichkeit der Modellergebnisse und -vorhersagen einschränken, da diese direkt aus den extrahierten Merkmalen berechnet werden. Die Interpretierbarkeitsbarriere kann auch die Mensch-Maschine-Interaktion einschränken, die in einem klinischen Umfeld für die Etablierung von Transparenz und Vertrauen unerlässlich ist. Eine wichtige Komponente zur Überwindung der Interpretierbarkeitsbarriere ist die Integration von menschlicher Sprache und Bildinformationen. Jüngste Forschung hat dazu einen Machbarkeitsnachweis in Form von Bild-Sprach-Modellen wie CLIP (“Contrastive Language-Image Pretraining”) erbracht. Diese Modelle werden “unsupervised”, d.h. ohne wahren Goldstandard, auf extrem großen Datenmengen trainiert und zeichnen sich durch ihre Fähigkeit aus, sowohl Text als auch Bilder effektiv zu verarbeiten und zu interpretieren. Eine weitere entscheidende Komponente ist der Anreiz für ML-Modelle, entwirrte, strukturierte Merkmalsrepräsentationen zu lernen. In der Literatur wird jedoch darauf hingewiesen, dass das Erlernen solcher Repräsentationen ohne einen induktiven Bias zwar unmöglich ist, jedoch durch eine “weak supervision” erreicht werden kann, d.h. durch die Verwendung verrauschter, unvollständiger oder ungenauer Labels zum Training des ML-Modells. Dabei können Text- oder semistrukturierte Informationen, wie medizinische Berichte oder Bildgebungs-Metadaten in DICOM-Headern, als “weak supervision”-Signale dienen. Wir glauben, dass das Bild-Sprach-Modell CLIP die dringend benötigten strukturierten, interpretierbaren Merkmalsrepräsentationen erlernen kann. Wir schlagen eine Methode vor, um CLIP im Kontext von Sprache und unter “weak supervision” zu trainieren, indem wir bildcharakterisierende Merkmalsvektoren, generiert aus medizinischen Berichten und DICOM-Headern, verwenden. Anschließend messen wir die Interpretierbarkeit der gelernten Repräsentationen und deren Fähigkeiten in klinischen Anwendungssituationen untersuchen. Zusammenfassend ist das Ziel dieses Projektes die Lücke zwischen den abstrakten Merkmalsrepräsentationen, die typischerweise von ML-Modellen erlernt werden, und der von medizinischen Fachkräften verwendeten Sprache zu schließen. Die Verbesserung der Interpretierbarkeit von ML-Ergebnissen und Vorhersagen ist entscheidend dafür, dass ML-Modelle die Radiologie effektiv unterstützen und in die klinische Praxis integriert werden können.

DFG-Verfahren WBP Stipendium

Internationaler Bezug USA

Gastgeber Professor Dr. Sergios Gatidis

Servicenavigation

Hauptnavigation

Interpretierbare Extraktion von charakterisierenden Merkmalen aus großskaligen medizinischen Bilddaten durch schwache Überwachung mit Text: Überbrückung der Unterschiede zwischen abstrakten Bildmerkmalen und menschlicher Sprache

Zusatzinformationen

Servicenavigation

Hauptnavigation

Interpretierbare Extraktion von charakterisierenden Merkmalen aus großskaligen medizinischen Bilddaten durch schwache Überwachung mit Text: Überbrückung der Unterschiede zwischen abstrakten Bildmerkmalen und menschlicher Sprache

Zusatzinformationen

Textvergrößerung und Kontrastanpassung