Rechencluster
Final Report Abstract
Der Rechencluster ermöglicht dem Fachgebiet und seinen Partnern, Grundlagenforschung im Bereich massiv paralleler und skalierbarer Datenverarbeitung zu betreiben. Dabei werden unter anderem im Rahmen der beiden Forschungsprojekte Stratosphere (DFG) und Berlin Big Data Center (BMWF) unter Verwendung dieser Hardware neuartige Open-source Softwaresysteme entwickelt, optimiert und evaluiert. Stratosphere befasst sich als einzige DFG-Forschergruppe in Deutschland mit Grundlagenforschung im Bereich Big Data. Dabei wurde ein neuartiges, Datenbank-inspiriertes System zur hochparallelen Analyse von großen Datenmengen mit geringer Latenz entwickelt. Stratosphere erlaubt die Ausführung von komplexen Datenanalyseprogrammen, welche Datenkorrelationen, Iterationen sowie komplexe benutzerdefinierte Funktionen enthalten können. Die deklarative Spezifikation von Datenflussprogrammen geschieht dabei in einem erweiterten Map/Reduce-Modell. Derartige Programme werden von Stratosphere automatisch parallelisiert, optimiert und dann massiv-parallel auf einer Infrastructure-as-a-Service Plattform oder großen Rechenclustern ausgeführt. Das Rechencluster war und ist in diesem Forschungsvorhaben von zentraler Bedeutung für die Entwicklung der Ausführungsengine von Stratosphere: Nephele. Das Cluster erlaubt diese Engine sowie prototypische Optimierungen dieser mit verschiedenen Analyseprogrammen und Testdaten unter realistischen Bedingungen zu testen und die erreichte Effizienz zu evaluieren. Dabei können dank des Clusters die umgesetzten Ideen auch immer wieder mit alternativen Lösungen verglichen werden. Das Cluster ermöglicht es also erst die massiv-parallele Anfrageverarbeitung von ungeordneten Datenmengen im Detail zu untersuchen und gezielt für die Ausführung in Shared-Nothing Umgebungen zu optimieren. Das angegliederte Forschungsprojekt Stratosphere II vertieft die Forschung von Stratosphere mit einem Fokus auf komplexere Datenanalyse. Dies beinhaltet unter anderem zustandsbehaftete, iterative Datenanalyse auf großen Mengen von "Data in Motion" unter Low-Latency Anforderungen. Diese Forschung erfordert neue Verfahren und Techniken sowohl auf System- als auch auf algorithmischer Ebene. Auch bei der Optimierung der Verarbeitung großer Datenströme unter Berücksichtigung von Qualityof-Service Constraints nimmt das Rechencluster wieder eine zentrale Rolle ein. Die Forschungsthemen des Berlin Big Data Center (BBDC) sind skalierbare Datenanalysesysteme und Maschinelles Lernen, sowie deren Kombination in einem deklarativen, skalierbaren Datenanalysesystem. Das BBDC organisiert sich dabei in drei Forschungsschwerpunkte: A. Maschinelles Lernen, B. skalierbare Datenverarbeitung und C. die Integration der Technologien des Maschinellen Lernens und der skalierbaren Systeme in ein deklaratives, skalierbares Datenanalysesystem. Das BBDC untersucht also ähnliche Forschungsfragen wie Stratosphere, erweitert die Stratosphere-Forschung aber um den Anwendungsschwerpunkt Maschinelles Lernen, sowohl zur Analyse sehr großer Datensätze mittels der Verfahren des Unüberwachten Lernens als auch zur Ermöglichung der verschiedenen Verfahren des Supervised Learnings mit sehr großen Trainings- und Modelldaten. Auch in der Forschung des BBDCs ermöglicht das Rechencluster dabei erst die Entwicklung und die Evaluierung der neu-entwickelten Ansätze um die aufwendigen numerischen Verfahren des Maschinellen Lernens skalierbar auf große Datenmengen praktisch anwendbar zu machen.
Publications
- Exploiting Dynamic Resource Allocation for Efficient Parallel Data Processing in the Cloud. Parallel and Distributed Systems, IEEE Transactions on. IEEE Press, 985-997. 2011
Daniel Warneke, Odej Kao
(See online at https://doi.org/10.1109/TPDS.2011.65) - 2012 IEEE 13th International Conference on High Performance Switching and Routing (HPSR)
Marc Koerner, Odej Kao
(See online at https://doi.org/10.1109/HPSR.2012.6260852) - Massively-Parallel Stream Processing under QoS Constraints with Nephele. Proceedings of the 21st International Symposium on High-Performance Parallel and Distributed Computing (HPDC) 2012 ACM, pp. 271-282
Björn Lohrmann, Daniel Warneke, Odej Kao
(See online at https://doi.org/10.1145/2287076.2287117) - Adaptive Online Compression in Clouds - Making Informed Decisions in Virtual Machine Environments. Journal of Grid Computing, Springer, 2013
Matthias Hovestadt, Odej Kao, Andreas Kliem, Daniel Warneke
(See online at https://doi.org/10.1007/s10723-013-9249-4) - Ephemeral Materialization Points in Stratosphere Data Management on the Cloud. Advances in Parallel Computing, Journal, 163 - 181. 2013
Mareike Höger, Odej Kao, Philipp Richter, Daniel Warneke
(See online at https://doi.org/10.3233/978-1-61499-322-3-163) - Nephele Streaming: Stream Processing Under QoS Constraints at Scale. Journal of Cluster Computing, Springer, 2013
Björn Lohrmann, Daniel Warneke, Odej Kao
(See online at https://doi.org/10.1007/s10586-013-0281-8) - VLDB Journal 2014
Alexander Alexandrov, Rico Bergmann, Stephan Ewen, Johann-Christoph Freytag, Fabian Hueske, Arvid Heise, Odej Kao, Marcus Leich, Ulf Leser, Volker Markl, Felix Naumann, Mathias Peters, Astrid Rheinländer, Matthias J. Sax, Sebastian Schelter, Mareike Höger, Kostas Tzoumas, Daniel Warneke
(See online at https://doi.org/10.1007/s00778-014-0357-y) - Elastic Stream Processing with Latency Guarantees. ICDCS 2015
Björn Lohrmann, Peter Janacik, Odej Kao
(See online at https://doi.org/10.1109/ICDCS.2015.48) - ET Networks Journal. Institution of Engineering and Technology. 2015
Alexander Stanik, Marc Koerner, Kao, Odej
(See online at https://dx.doi.org/10.1049/iet-net.2014.0104) - Implicit Parallelism through Deep Language Embedding. SIGMOD 2015
Alexander Alexandrov, Andreas Kunft, Asterios Katsifodimos, Felix Schüler, Lauritz Thamsen, Odej Kao, Tobias Herb, Volker Markl
(See online at https://doi.org/10.1145/2723372.2750543)