Impliziter Bias im adversariellen Training

Antragsteller Professor Dr. Massimo Fornasier; Professor Dr. Holger Rauhut

Fachliche Zuordnung Mathematik

Förderung Förderung seit 2021

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 464121491

Projektbeschreibung

Trotz aller Erfolge des Deep Learnings können trainierte tiefe neuronale Netze sehr empfindlich auf kleine Störungen reagieren. Dies macht Deep-Learning-Methoden anfällig für Angriffe. Mehrere Ansätze wurden vorgeschlagen, um neuronale Netze robuster zu machen. Ein besonders vielversprechender ist das adversarielle Lernen (adversarial learning), bei dem Worst-Case-Störungen während der Lernphase berücksichtigt werden. Das vorgeschlagene Projekt zielt darauf ab, solche Strategien in verschiedenen Kontexten zu untersuchen. Wir werden einen Schwerpunkt auf neuronale ODEs legen, die als eine unendlich tiefer Grenzwert von klassischen neuronalen Netzen angesehen werden können. In diesem Kontext werden wir adversariales Training untersuchen, indem wir es als Mean-Field-Minimax-Optimalsteuerungsproblem formulieren. Aufgrund des aktuellen Trends zu immer größeren Modellen des maschinellen Lernens übersteigt die Anzahl der Parameter des neuronalen Netzes in der Regel die Anzahl der Trainingsparameter bei Weitem. In diesem Szenario besitzt die empirische Verlustfunktion unendlich viele globale Minimierer und die verwendeten Lernalgorithmen - Varianten des (stochastischen) Gradientenabstiegs - bewirken einen impliziten Bias zu gewissen Lösungen. Überraschenderweise zeigen die gängigen Lernalgorithmen eine sehr gute Generalisierung auf ungesehene Daten. Erste theoretische Ergebnisse zu vereinfachten (linearen) Netzwerkmodellen deuten auf eine implizite Tendenz zu spärlichen (sparse) oder Lösungen niedrigen Ranges hin. Für adversarielles Lernen liegen jedoch bisher keine theoretischen (und größtenteils auch keine numerischen) Ergebnisse vor, und wir planen, diese Lücke im Rahmen dieses Projekts zu schließen. Ein neuerer Ansatz zur Verbesserung der Generalisierungseigenschaften von gelernten Netzwerken ist Sharpness-Aware-Minimization, welches darauf abzielt, flache Minimierer der Verlustfunktion zu bevorzugen. Wir werden den impliziten Bias dieses Ansatzes für verschiedene Netzwerkarchitekturen, einschließlich neuronaler ODEs, analysieren und Kombinationen mit adversarialem Lernen untersuchen. Darüber hinaus werden wir uns auch mit Transformer-Architekturen befassen, für die impliziter Bias und adversariales Lernen ebenfalls ein weitestgehend offenes Gebiet sind.

DFG-Verfahren Schwerpunktprogramme

Teilprojekt zu SPP 2298: Theoretische Grundlagen von Deep Learning

Servicenavigation

Hauptnavigation

Impliziter Bias im adversariellen Training

Zusatzinformationen

Servicenavigation

Hauptnavigation

Impliziter Bias im adversariellen Training

Zusatzinformationen

Textvergrößerung und Kontrastanpassung