Die Zukunft medizinischer Datensätze: Analyse und Training medizinischer multimodaler Modelle mit einem iterativen ML-Ansatz

Antragsteller Dr. Robert Kaczmarczyk

Fachliche Zuordnung Medizininformatik und medizinische Bioinformatik
Dermatologie
Epidemiologie und Medizinische Biometrie/Statistik

Förderung Förderung seit 2023

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 526052741

Projektbeschreibung

In den letzten Jahren zeigt sich der rasante Fortschritt in den Computerwissenschaften im Bereich des maschinellen Lernens anhand der Veröffentlichung immer größer werdenden Datensätze und darauf basierender immer besserer, größerer Modelle. So können mittlerweile allgemeine Chatprogramme bereits eine breite Wissensgrundlage abbilden (ChatGPT) oder anhand von Texten akkurate Bilder (Stable Diffusion, Dall-E, Imagen) oder gar Videos (Phenaki) generiert werden. Die Datensätze zur Verwendung dieser Modelle sind meistens jedoch noch nicht genau untersucht, weder im Allgemeinen noch in Hinblick auf medizinische Daten. Ebenso gibt es derzeit noch keinen guten Überblick über vorhandene große, medizinische Datensätze im Internet, die für das Trainieren von medizinischen Abwandlungen obiger Modelle von Nutzen sein können. In unserem Forschungsprojekt wollen wir genau dies angehen, indem wir zunächst die Landschaft medizinischer Datensätze im Internet charakterisieren. Mithilfe dieser Daten werden dann einfache, binäre Klassifikatoren trainiert, mit denen eine weitere, bessere Filterung existierender, großer Datensätze, wie das von uns erst kürzlich veröffentlichte LAION-5B (der größte, öffentlich frei verfügbare Text-Bild-Datensatz), ermöglicht wird. Die neuen Datensätze dienen dann als Ausgangspunkt für die Anpassung offener Modelle des kontrastiven Lernens wie das sogennante open clip, das eine freie Implementation von openai’s CLIP ist, das letztendlich eine bessere Zuordnung medizinischer Daten ermöglichen soll. Der daraus gewonnene Datensatz dient dem Training / des Feintunings obiger, allgemeiner Modelle (z.B. von Stable Diffusion), um so anhand des Beispiels der Dermatologie, bessere Bilder, sowohl für Schulungszwecke, aber auch für ein allgemein besseres Verständnis von dermatologischen Erkrankungen, zu generieren. Im gesamten Forschungsprojekt werden sowohl alle untersuchten und generierten Datensätze, als auch die trainierten Modelle und deren Ausgaben auf einen Bias hinsichtlich des Geschlechts, der Herkunft, der Hautfarbe etc. untersucht, um das Forschungsfeld auf potentiell vorhandene Unausgeglichenheiten in (medizinischen) Datensätzen aufmerksam zu machen und das Erstellen ausgeglichenerer Datensätze zu fördern. Dabei werden wir allgemeine Metriken entwickeln und öffentlich zur Verfügung stellen, die auch zukünftig für die Beurteilung der Ausgeglichenheit von Datensätzen und Modellausgaben von Nutzen sein werden.

DFG-Verfahren WBP Stipendium

Internationaler Bezug Kanada, USA

Gastgeberinnen / Gastgeber Professorin Dr. Irina Rish; Professor Ludwig Schmidt, Ph.D.

Servicenavigation

Hauptnavigation

Die Zukunft medizinischer Datensätze: Analyse und Training medizinischer multimodaler Modelle mit einem iterativen ML-Ansatz

Zusatzinformationen

Servicenavigation

Hauptnavigation

Die Zukunft medizinischer Datensätze: Analyse und Training medizinischer multimodaler Modelle mit einem iterativen ML-Ansatz

Zusatzinformationen

Textvergrößerung und Kontrastanpassung