Detailseite
Projekt Druckansicht

Private, sichere und effiziente Codes für verteiltes maschinelles Lernen

Antragsteller Rawad Bitar, Ph.D.
Fachliche Zuordnung Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Kommunikationstechnik und -netze, Hochfrequenztechnik und photonische Systeme, Signalverarbeitung und maschinelles Lernen für die Informationstechnik
Mathematik
Förderung Förderung seit 2023
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 508621276
 
Im Zeitalter von Big Data müssen täglich riesige Mengen an Informationen analysiert werden. Algorithmen für maschinelles Lernen, die diese Daten verarbeiten, erfordern intensive, zeitaufwändige Berechnungen, die möglicherweise nicht einmal auf einen einzigen Rechenknoten passen. Verteiltes Rechnen ist die Lösung, um solche massiven Berechnungen zu ermöglichen und ihre Laufzeit zu verkürzen. Die verteilte Datenverarbeitung bringt Herausforderungen mit sich, die verstanden und bewältigt werden müssen. Die Rechenaufgabe wird in kleinere Teilaufgaben aufgeteilt, die auf Arbeiterknoten verteilt werden. Langsame oder nicht reagierende Arbeiter, sogenannte Nachzügler, erweisen sich als Achillesferse der verteilten Datenverarbeitung. Das Warten auf Nachzügler führt zu erheblichen Verzögerungen und überwiegt den Nutzen der Verteilung der Berechnungen. Die zweite Herausforderung besteht in der Wahrung der Schutz der verarbeiteten Daten. Beim Umgang mit Krankenakten, Gesichtserkennung Problemen, privaten Daten aus sozialen Medien usw. ist der Schutz der verarbeiteten Daten von äußerster Wichtigkeit. Die dritte Herausforderung des verteilten Rechnens besteht darin, die Sicherheit der Berechnungen gegen böswillige Arbeitsknoten zu gewährleisten. Es reicht aus, dass ein einzelner Arbeiter unbemerkt fehlerhafte Berechnungen liefert, um den gesamten Prozess zu beschädigen. Kodierte Rechenverfahren, die auf fehlerkorrigierenden Codes basieren, werden als Hauptmethode zur Eindämmung von Nachzüglern und zur Gewährleistung von Datenschutz und Sicherheit vorgeschlagen. Ein System gilt als effizient, wenn es die Eigenschaften der gewünschten Berechnung nutzen kann, um den Arbeitern entweder kleinere Rechenaufgaben zuzuweisen oder sich an das Verhalten der Arbeiter anzupassen und Aufgaben zuzuweisen, deren Größe proportional zur Geschwindigkeit der Arbeiter ist. In diesem Projekt entwickeln wir neue effiziente Kodierungstechniken für private und sichere kodierte Berechnungen. Für lineare Berechnungen, d.h. Matrix-Matrix-Multiplikation, konstruieren wir effiziente Verfahren, die den Datenschutz und die Sicherheitsanforderungen einhalten. Wir betrachten Anwendungen wie die Gesichtserkennung, bei denen die Eingabematrizen spärlich sind (mit einer signifikanten Anzahl von Nulleinträgen). Wir entwickeln Schemata, die die Spärlichkeit der Eingabematrizen auch unter den gewünschten Datenschutzbedingungen ausnutzen können. Für allgemeine Algorithmen des maschinellen Lernens auf der Grundlage des Gradientenabfalls, untersuchen wir die Tatsache, dass die Berechnung einer guten Schätzung des Gradienten ausreichend ist. In diesem Zusammenhang untersuchen wir zuerst das Zusammenspiel zwischen der Anzahl der Aufgaben, die jedem Arbeiter zugewiesen werden, und der Anzahl der tolerierten Nachzügler. Dann untersuchen wir die Idee, die Rechenleistung der Arbeiter zu lernen und dabei nur einer Teilmenge der Arbeiter, die als die schnellsten gelten, Rechenaufgaben zuzuweisen.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung