Detailseite
Validierte Modelle des MapReduce Skalierungsverhaltens
Antragsteller
Professor Dr.-Ing. Markus Fidler
Fachliche Zuordnung
Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Förderung
Förderung seit 2017
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 389207087
Ziel des VaMoS-Projekts ist es, die Lücke zwischen systemorientierter Forschung und warteschlangentheoretischen Arbeiten zu parallelen Systemen zu schließen, um Modelle zu erstellen, die die Leistung realer Systeme und ihres Skalierungsverhaltens widerspiegeln. Dieses Dokument berichtet über die erste Phase des Projekts und schlägt eine Erweiterung des Projekts mit einem Arbeitsprogramm vor, das auf den Erfolgen und Entwicklungen, die in den letzten Jahren auf diesem Gebiet gemacht wurden, aufbaut.In der ersten Phase des VaMoS-Projekts haben wir umfangreiche, experimentell motivierte Arbeiten an parallelen Systemen durchgeführt. Wir untersuchten die Auswirkungen der Joblokalität, analysierten Traces von realen Clustern, untersuchten die Leistungsvorteile und Kompromisse einer feineren Task-Granularität sowohl theoretisch als auch experimentell und führten Experimente durch und entwickelten Modelle für parallele Systeme mit Barrieren, wie sie häufig bei der Parallelisierung von Arbeitslasten im maschinellen Lernen benötigt werden. Diese Arbeit umfasste die Implementierung oder Erweiterung mehrerer Softwarepakete, die wir öffentlich zugänglich gemacht haben. Unsere vorgeschlagene Projekterweiterung konzentriert sich auf parallele Systeme mit Barrieren. Typischerweise bedeutet dies, dass Jobs in Tasks unterteilt werden, die parallel von einer Gruppe von Arbeitern bedient werden, wobei die Tasks gleichzeitig beginnen und möglicherweise auch gleichzeitig abgeschlossen werden müssen. Ferner kann es auch Zwischensynchronisationspunkte geben. Diese Art von Barrieren ist bei Anwendungen im maschinellen Lernen üblich und einige Map-Reduce-Engines wurden kürzlich um Unterstützung derartiger Barrieren erweitert, um diese Arten von Arbeitslasten zu berücksichtigen. Die Restriktionen, die durch Barrieren hervorgerufen werden, haben erhebliche Auswirkungen auf die Leistung, da sie Arbeiter dazu zwingen können, untätig auf die Fertigstellung eines einzelnen, lang andauernden Tasks zu warten. In der ersten Phase des Projekts haben wir analytische Leistungsgrenzen für grundlegende Konfigurationen derartiger Systeme entwickelt. Um unsere Ergebnisse auf reale Systeme zu übertragen, müssen wir eine Reihe von Fragen beantworten, wie parallele Systeme für Arbeitslasten mit mehrfachen Barrieren skalieren, wie sie einen heterogenen Strom von Jobs mit und ohne Barrieren handhaben und wie derartige Arbeitslasten modelliert werden können. Wir müssen uns ferner mit Fragen der Implementierung befassen, die die dynamische Veränderung des Grads der Parallelität eines Jobs betreffen, und ob Planungsoptimierungen, die zur Unterstützung einer extrem feinen Aufgabengranularität erforderlich sind, bei der parallelen Verarbeitung von Streaming-Daten nützlich sein können.
DFG-Verfahren
Sachbeihilfen
Mitverantwortlich
Brenton Walker, Ph.D.