Detailseite
Projekt Druckansicht

Robuste Network-On-Chip-Kommunikation durch hierarchische Online-Diagnose und -Rekonfiguration (ROCK)

Fachliche Zuordnung Rechnerarchitektur, eingebettete und massiv parallele Systeme
Förderung Förderung von 2011 bis 2016
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 197276261
 
Erstellungsjahr 2016

Zusammenfassung der Projektergebnisse

In den vergangenen fünfzig Jahren ist es gelungen, ein exponentielles Fortschreiten der Integrationsdichte mikroelektronischer Schaltungen auf sog. Chips aufrecht zu erhalten. Dies ermöglicht es heutzutage, mehrere CPU Cores auf einem einzigen Chip zu integrieren und damit hohe Verarbeitungsleistung auf kleinem Raum zu erzielen. Prozessorchips mit 8 Cores sind im Smartphone-Bereich gängig und fortgeschrittene Multicore-Chips weisen eine Core-Anzahl in der Größenordnung von bis zu 100 auf. Aufgrund einer Roadmap für die Halbleiterherstellung ist absehbar, dass sich dieser Trend wenigstens bis 2028 fortsetzen wird und dass dann 1000 Prozessor-Cores auf einem einzigen Manycore-Chip zu fertigen sein werden. Um den damit verbundenen On-Chip-Kommunikationsbedarf zu befriedigen, zeichnet sich bereits ab, dass konventionelle zentralisierte, exklusiv nutzbare Bussysteme durch sogenannte Networks-on-Chip (NoC) mit paketbasierter Datenvermittlung über mehrere Stationen (Switches, Routing) ersetzt werden. Gleichzeitig führt die steigende Integrationsdichte zu verstärktem Auftreten von Defekten, die während der Herstellung oder zunehmend auch durch Abnutzungseffekte im Betrieb entstehen. Solche Defekte führen zu permanenten Fehlern in der NoC-Struktur, die ohne geeignete Gegenmaßnahmen zu Fehlverhalten oder sogar zum kompletten Versagen eines Manycore-Chips führen können. In diesem Projekt wurde die Forschungshypothese verfolgt, dass für Systeme der genannten Größenordnung ein hierarchisch organisiertes Vorgehen zur Diagnose und Umgehung solcher Fehler vorteilhaft ist. Es wurden Diagnoseverfahren auf verschiedenen Netzwerkschichten und ihre Interaktionsmöglichkeiten untersucht, um von der Kombination der jeweiligen Vorteile zu profitieren. Unsere Untersuchungen zeigen, dass solche Kombinationen in der Tat bessere Abwägungen zwischen Genauigkeit der Diagnose und der Beeinträchtigung des Systembetriebs ermöglichen, als dies mit isolierten Ansätzen auf einzelnen Schichten möglich wäre. Ähnliches gilt für die Rekonfiguration von NoCs, womit diagnostizierte Fehler umgangen werden sollen. Bei perspektivisch 1000 Netzwerkknoten ist es mit rein verteilt implementierten Fehlertoleranzverfahren nicht mehr möglich, globale Aussagen zu resultierenden Netzwerkeigenschaften zu machen. Auf der anderen Seite ist die zentrale Organisation eines Netzwerks dieser Größe aufwändig und selbst fehleranfällig. Die hier verfolgte logische Aufteilung des NoC in hierarchisch organisierte Cluster erlaubt es, sowohl den Berechnungsaufwand als auch den Speicherbedarf für „Umleitungen“ in Grenzen zu halten, und implementiert die Bestimmung alternativer Routing mittels eines deterministischen Verfahrens, das parallel zum laufenden Systembetrieb durchgeführt werden kann. Darüber hinaus wurden methodische Ergebnisse erzielt, die eine Anwendungsperspektive über NoCs hinaus haben. Zur Bewertung einer Vielzahl von Systemalternativen mit großen Datenmengen und Fehlermustersätzen wurden Modellierungs- und Simulationsverfahren entwickelt, die insbesondere durch Parallelisierung eine hohe Effizienz aufweisen. Diese sollen zukünftig über die Simulation des reinen Netzwerks hinaus ausgedehnt werden. Ein weiteres methodisches Highlight besteht in der Etablierung eines mathematisch formalisierten Zusammenhangs zwischen Fehlermodellen auf unterschiedlichen Ebenen. Damit können strukturorientierte Fehlermodelle und funktionales Fehlverhalten miteinander in Beziehung gesetzt werden, was es unter anderem ermöglicht, mittels funktionaler Diagnoseansätze eine hohe strukturelle Fehlerüberdeckung zu erreichen.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung