As for the entire embedded-systems domain, the complexity of safety-critical systems is growing rapidly. Additionally, the rate of errors in such devices also increases for instance due to silicon shrinking. Hence, error-free operation under in-specification operating conditions cannot be assumed for next-generation safety-critical devices.
As a rule of thumb the key design parameters for such systems performance, price and reliability are almost always contradicting design goals. This work addresses the related design space, highlights the challenges and discusses the trade-offs.
Of unique interest is the reliability under real-time aspects. Naturally, there are error-handling protocols, error-correcting codes, and modular redundancy available. However, the effect of errors always has an influence on system timing. Even if an error is handled and corrected, it remains unclear under which situations timing requirements are met. This leads to the absurd situation that a device such as an advanced driver assistance system produces correct data even under errors but fails to deliver service because hard deadlines are missed.
We present the ASTEROID architecture as a next-generation high-performance, real-time platform which addresses reliability and thus safety aspects. ASTEROID differs from other MPSoC platforms in its cross-layer error handling approach. The hardware implements the bare minimum to support the operating system with support for redundant computing, allowing the software to flexibly schedule tasks for redundant or regular execution. This architecture was joint work between TU Braunschweig and TU Dresden. In this work, we present the hardware architecture and discuss the real-time performance under errors in a compositional way. Therefore, we consider errors in communication (be it on-chip as well as off-chip) and errors in the processing core itself.
The scientific contributions are first to extend compositional performance analysis (CPA) also by covering error effects, second to cover end-to-end error protocols with CPA, third to provide execution models and analysis for redundant execution and finally to bound the likelihood of timing violations in communication and computation under a given error model.
Sowohl eingebettete Systeme im Allgemeinen, als auch sicherheitskritische Systeme im Speziellen werden zunehmend komplexer. Hinzu kommt, dass aufgrund der Verkleinerung der Strukturbreite moderner Halbleiterprozesse die transiente Fehlerrate deutlich ansteigt. Daher kann nicht von einem fehlerfreien Betrieb von zukünftigen eingebetteten, sicherheitskritischen Systemen unter nominalen Bedingungen ausgegangen werden.
Als Faustregel kann man zusammenfassen, dass die Schlüsselparameter im Entwurfsraum Performance, Preis und Zuverlässigkeit so gut wie immer widersprüchliche Entwurfsziele sind. Diese Arbeit zielt auf diesen Entwurfsraum ab, zeigt die Herausforderungen und diskutiert die Trade-Offs.
Von besonderem Interesse ist die Zuverlässigkeit unter Echzeitaspekten. Selbstverständlich gibt es Fehlerbehandlungsprotokolle, Fehlercodes und modulare Redundanz. Allerdings hat die Korrektur von Fehlern immer einen gewissen Einfluss auf das Zeitverhalten des gesamten Systems. Selbst, wenn ein Fehler korrigiert werden konnte, ist unklar, unter welchen Situationen das Zeitverhalten eingehalten wird. Dies kann zu der absurden Situation führen, dass ein Fehler in einem Fahrerassistenzsystem korrigiert werden kann, dennoch aber das Verpassen einer Deadline zu einem Systemfehler führt.
In dieser Arbeit stellen wir die ASTEROID Plattform vor, die im Rahmen einer Kooperation der TU Braunschweig mit der TU Dresden entstanden ist. Diese Plattform ist speziell im Hinblick auf Echtzeitaspekte, Performance, Zuverlässigkeit und damit einhergehend Sicherheit entworfen worden. ASTEROID unterscheidet sich von anderen MPSoC Plattformen durch seinen Cross-Layer Fehlerbehandlungsansatz. Die eigentliche Hardwareplattform implementiert nur das absolute Minimum an Fehlertoleranz, um das darüber geschaltete Betriebssystem zu unterstützen.
Dieses übernimmt dann die eigentliche Redundanz und erlaubt damit eine flexible Mischung von redundanten und nicht-redundanten Anwendungen.
In dieser Arbeit wird die Plattform in Bezug auf die Echtzeitperformanz unter Fehlern in einer kompositionellen Weise untersucht. Dafür werden Fehlereffekte in der on-chip und off-chip Kommunikation sowie Fehler im eigentlichen Rechenkern selbst betrachtet.
Der wissenschaftliche Beitrag dieser Arbeit liegt zum einen in einer generalisierten kompositionellen Performanzanalyse, die zudem Fehlereffekte berücksichtigt.
Zum Anderen werden Ende-zu-Ende Protokolle und redundante Anwendungen modelliert und in Bezug auf ihre Echtzeitfähigkeit untersucht. Für viele der genutzten Verfahren wird auch eine Zuverlässigkeitsabschätzung des Echtzeitverhaltens bei einem gegebenen Fehlermodell durchgeführt.
Dieser Download kann aus rechtlichen Gründen nur mit Rechnungsadresse in A, B, BG, CY, CZ, D, DK, EW, E, FIN, F, GR, HR, H, IRL, I, LT, L, LR, M, NL, PL, P, R, S, SLO, SK ausgeliefert werden.