Robuste Network-On-Chip-Kommunikation durch hierarchische Online-Diagnose und -Rekonfiguration (ROCK)
Final Report Abstract
In den vergangenen fünfzig Jahren ist es gelungen, ein exponentielles Fortschreiten der Integrationsdichte mikroelektronischer Schaltungen auf sog. Chips aufrecht zu erhalten. Dies ermöglicht es heutzutage, mehrere CPU Cores auf einem einzigen Chip zu integrieren und damit hohe Verarbeitungsleistung auf kleinem Raum zu erzielen. Prozessorchips mit 8 Cores sind im Smartphone-Bereich gängig und fortgeschrittene Multicore-Chips weisen eine Core-Anzahl in der Größenordnung von bis zu 100 auf. Aufgrund einer Roadmap für die Halbleiterherstellung ist absehbar, dass sich dieser Trend wenigstens bis 2028 fortsetzen wird und dass dann 1000 Prozessor-Cores auf einem einzigen Manycore-Chip zu fertigen sein werden. Um den damit verbundenen On-Chip-Kommunikationsbedarf zu befriedigen, zeichnet sich bereits ab, dass konventionelle zentralisierte, exklusiv nutzbare Bussysteme durch sogenannte Networks-on-Chip (NoC) mit paketbasierter Datenvermittlung über mehrere Stationen (Switches, Routing) ersetzt werden. Gleichzeitig führt die steigende Integrationsdichte zu verstärktem Auftreten von Defekten, die während der Herstellung oder zunehmend auch durch Abnutzungseffekte im Betrieb entstehen. Solche Defekte führen zu permanenten Fehlern in der NoC-Struktur, die ohne geeignete Gegenmaßnahmen zu Fehlverhalten oder sogar zum kompletten Versagen eines Manycore-Chips führen können. In diesem Projekt wurde die Forschungshypothese verfolgt, dass für Systeme der genannten Größenordnung ein hierarchisch organisiertes Vorgehen zur Diagnose und Umgehung solcher Fehler vorteilhaft ist. Es wurden Diagnoseverfahren auf verschiedenen Netzwerkschichten und ihre Interaktionsmöglichkeiten untersucht, um von der Kombination der jeweiligen Vorteile zu profitieren. Unsere Untersuchungen zeigen, dass solche Kombinationen in der Tat bessere Abwägungen zwischen Genauigkeit der Diagnose und der Beeinträchtigung des Systembetriebs ermöglichen, als dies mit isolierten Ansätzen auf einzelnen Schichten möglich wäre. Ähnliches gilt für die Rekonfiguration von NoCs, womit diagnostizierte Fehler umgangen werden sollen. Bei perspektivisch 1000 Netzwerkknoten ist es mit rein verteilt implementierten Fehlertoleranzverfahren nicht mehr möglich, globale Aussagen zu resultierenden Netzwerkeigenschaften zu machen. Auf der anderen Seite ist die zentrale Organisation eines Netzwerks dieser Größe aufwändig und selbst fehleranfällig. Die hier verfolgte logische Aufteilung des NoC in hierarchisch organisierte Cluster erlaubt es, sowohl den Berechnungsaufwand als auch den Speicherbedarf für „Umleitungen“ in Grenzen zu halten, und implementiert die Bestimmung alternativer Routing mittels eines deterministischen Verfahrens, das parallel zum laufenden Systembetrieb durchgeführt werden kann. Darüber hinaus wurden methodische Ergebnisse erzielt, die eine Anwendungsperspektive über NoCs hinaus haben. Zur Bewertung einer Vielzahl von Systemalternativen mit großen Datenmengen und Fehlermustersätzen wurden Modellierungs- und Simulationsverfahren entwickelt, die insbesondere durch Parallelisierung eine hohe Effizienz aufweisen. Diese sollen zukünftig über die Simulation des reinen Netzwerks hinaus ausgedehnt werden. Ein weiteres methodisches Highlight besteht in der Etablierung eines mathematisch formalisierten Zusammenhangs zwischen Fehlermodellen auf unterschiedlichen Ebenen. Damit können strukturorientierte Fehlermodelle und funktionales Fehlverhalten miteinander in Beziehung gesetzt werden, was es unter anderem ermöglicht, mittels funktionaler Diagnoseansätze eine hohe strukturelle Fehlerüberdeckung zu erreichen.
Publications
- “Structural Test and Diagnosis for Graceful Degradation of NoC Switches”. Journal of Electronic Testing: Theory and Applications (JETTA), Vol. 28(6) October 2012, pp. 831-841
A. Dalirsani, S. Holst, M. Elm, H.-J. Wunderlich
- “Optimal placement of vertical connections in 3D Network-on-Chip”, Journal of Systems Architecture, vol. 59, no. 7, August 2013, pp. 441-454
T.C. Xu, G. Schley, P. Liljeberg, M. Radetzki, J. Plosila, H. Tenhunen
- “Scalable Parallel Simulation of Networks on Chip“, in Proc. International Symposium on Networks-on-Chip (NOCS 2013), Tempe, AZ, USA, April 2013, pp. 66-73 [Best paper award]
M. Eggenberger and M. Radetzki
- “Area-Efficient Synthesis of Fault-Secure NoC Switches”. Proc of the 20th IEEE International On-Line Testing Symposium (IOLTS’14), Platja d’Aro, Catalunya, Spain, 7-9 July,2014, pp.13-18
A. Dalirsani, M.A. Kochte, H.-J. Wunderlich
(See online at https://doi.org/10.1109/IOLTS.2014.6873662) - “On Covering Structural Defects in NoCs by Functional Tests“, in Proc. of the 23rd IEEE Asian Test Symposium (ATS'14), Hangzhou, China, 16-19 November, 2014, pp. 87-92
A. Dalirsani, N. Hatami, M.E. Imhof, M. Eggenberger, G. Schley, M. Radetzki, and H.-J. Wunderlich
(See online at https://doi.org/10.1109/ATS.2014.27) - “Structural Software-Based Self-Test of Network-on-Chip”. Proc 32nd IEEE VLSI Test Symposium (VTS’14), Napa, California, USA, 13-17 April, 2014
A. Dalirsani, M.E. Imhof, H.-J. Wunderlich
(See online at https://doi.org/10.1109/VTS.2014.6818754) - “Fault Tolerant Routing for Hierarchically Organized Networks-on-Chip“, in Proc. 23rd Euromicro International Conference on Parallel, Distributed and Network-based Processing (PDP'15), Turku, Finland, 2015, pp. 379-386
G. Schley and M. Radetzki
(See online at https://doi.org/10.1109/PDP.2015.36) - “Multi-Layer Test and Diagnosis for Dependable NoCs”, Proc of the 9th IEEE/ACM International Symposium on Networks-on-Chip (NOCS´15), Vancouver, BC, Canada, 28-30 September 2015
H.-J. Wunderlich, M. Radetzki
(See online at https://doi.org/10.1145/2786572.2788708) - “Reconfigurable Fault Tolerant Routing for Networks-on-Chip with Logical Hierarchy“, Computers and Electrical Engineering, vol. 51, 2016, pp. 195-206
G. Schley, I. Ahmed, M. Afzal, and M. Radetzki
(See online at https://doi.org/10.1016/j.compeleceng.2016.02.013)