Entwurf und Architektur für Racetrack basierte Hybrid Speichersysteme
Zusammenfassung der Projektergebnisse
Das Gesamtziel dieses Projekts bestand darin, die Grundlage für eine hocheffiziente Datenverwaltung auf hybridenSpeichersystemen zu schaffen, indem speicher- und anwendungsspezifische Datenverwaltungsstrategien entwickelt wurden. Mit diesem Ziel vor Augen wurden verschiedene Compiler-, Hardware-, Controller- und Systemoptimierungen entwickelt, die die verschiedenen Speicher systematisch verwalten, indem sie die Vorteile der einzelnen Speichertypen auf kosteneffiziente Weise nutzen und ihre Nachteile abmildern. In diesem Projekt haben wir verschiedene hybride Speichersysteme für unterschiedliche Anwendungsszenarien wie allgemeine Anwendungen, Genomik, numerische Strömungsmechanik und maschinelles Lernen untersucht. Unter Ausnutzung des Anwendungswissens und der zugrunde liegenden Speicherarchitektur haben wir verschiedene Hardware- und Software- Optimierungen entwickelt. Konkret arbeiteten wir an der effizienten Integration von relativ neuen RTM mit anderen Speichern auf verschiedenen Ebenen der Speicherhierarchie, einschließlich Scratchpad, Caches und Speicher. Insbesondere die Multi-Bit-Speicherzellen in RTM sind von Natur aus sequentiell und erfordern daher intelligente Techniken, um die Leistungs- und Energieauswirkungen von Verschiebungen während des Datenzugriffs zu mindern. Auf der Hardwareseite wurden zwei neuartige RTM-basierte Cache-Architekturen vorgeschlagen und ihre Integration mit DRAM-basiertem Off-Chip-Speicher für Allzweckanwendungen realisiert. Der erste BlendCache geht das Energieverbrauchsproblem eines größeren Caches an, indem er die Tags effizient in den leckoptimierten Multi-Bit-RTM-Zellen speichert. Wir haben außerdem herausgefunden, dass bestehende Cache-Ersetzungsstrategien bei extrem dichten Multi-Bit-RTM-Zellen einen hohen Verschiebungsaufwand verursachen. Um dieses Problem zu lösen, haben wir eine Shift-Aware Replacement Policy entwickelt, die zunächst die Shift-Kosten einer selten wiederverwendeten Cache-Zeile in einem Cache-Set berechnet. Danach wird eine Opfer-Cache-Zeile aus dieser Gruppe ausgewählt, die die geringsten Verschiebungskosten verursacht. Auf der Controllerseite haben wir einen intelligenten Controller für RTM und DRAM entwickelt, der Speicherzugriffe über unabhängige Speicher-Subarrays hinweg verschachtelt, was die Latenz und den Energieverbrauch durch Pipelining-Zugriffe reduziert. Wir haben einen speichernahen Pre-Alignment-Filter für RTM vorgeschlagen, der ein neuartiges Datenlayout, Pre-Shifting und zirkuläre Puffer bietet, um die Verschiebeoperationen in RTM erheblich zu reduzieren. Auf der Compiler-Seite haben wir verschiedene Techniken vorgeschlagen, einschließlich optimaler und nahezu optimaler Algorithmen für die Platzierung von Entscheidungsbäumen in RTMs, die für die Ausführung von Modellen für maschinelles Lernen auf verteilten Geräten erforderlich sind. Wir haben Layout-Transformationen vorgeschlagen, die RTM-freundlichen Code erzeugen und die Verschiebeoperationen in RTM erheblich reduzieren. Auf Systemebene wurden leistungs- und energieeffiziente Methoden für Tensorkontraktionen vorgeschlagen, die einen hybriden RTM-basierten Scratch-Pad-Speicher (SPM) und DRAM-basierten Off-Chip- Speicher verwenden. Compiler-Optimierungen wie die Transformation des Datenlayouts werden mit architektonischen Optimierungen wie Prefetching und Preshifting gepaart, um den Verschiebungs-Overhead in RTMs zu reduzieren. Wir bewerten unsere Optimierungen für verschiedene Anwendungsbereiche und haben die Vorteile unserer Optimierungen in Bezug auf Leistung und Energieeffizienz im Vergleich zu den modernsten Speichersystemen nachgewiesen.
Projektbezogene Publikationen (Auswahl)
-
ALPHA: A Novel Algorithm-Hardware Co-design for Accelerating DNA Seed Location Filtering. In IEEE Transactions on Emerging Topics in Computing (IEEE TETC), vol. 10, no. 3, pp. 1464-1475
F. Hameed, A.A. Khan, and J. Castrillon
-
BlendCache: An Energy and Area Efficient Racetrack Last-Level-Cache Architecture. In IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems (IEEE TCAD), vol. 41, no. 12, pp. 5288-5298
F. Hameed and J. Castrillon
-
DNA Pre-alignment Filter using Processing Near Racetrack Memory. In IEEE Computer Architecture Letters, vol. 21, no. 2, pp. 53-56
F. Hameed, A.A. Khan, S. Olliver, A.K. Jones, and J. Castrillon
-
ROLLED: Racetrack Memory Optimized Linear Layout and Efficient Decomposition of Decision Trees. In IEEE Transactions on Computers, 14 pp
C. Hakert, A.A. Khan, K-H. Chen, F. Hameed, J. Castrillon, and J-J. Chen