1. Multicast Router with Fault Tolerance Mechanism for Large-Scale Neuromorphic Computing System
- Author
-
Li, Zifei
- Subjects
Network on chip ,Systems on chip ,Fault tolerance - Abstract
Mit dem Wachstum massiv integrierter Netze übersteigt der Anstieg des Bedarfs an Rechenleistung bei weitem die durch das Mooresche Gesetz bewirkten Verbesserungen. Dietraditionelle von-Neumann-Architektur, eine Computerarchitektur, bei der Datenverarbeitung und -speicherung an getrennten Orten erfolgen müssen, führt zu Bandbreitenbeschränkungen,die die Entwicklung der Rechenleistung begrenzen. Um diese Beschränkung zu umgehen, bietet sich die Neuromorphe Plattform als neue Computerarchitektur an, bei der gehirnähnliches Rechnen eingesetzt wird, um das Verhalten von hocheffizienten und verbrauchsarmen biologischen Gehirnen zu simulieren. Wie das menschliche Gehirn zeichnet sich das gehirnähnliche Rechnen durch massive Parallelität, allgegenwärtige Verbindungen und andere Merkmale aus. Daher sind Multi-Core-, Multi-Chip-Intra- und Inter-Chip-Verbindungsnetze erforderlich. Die Inter- und Intra-Chip-Kommunikation ist ein entscheidender Faktor, der die Leistung der Simulation von Modellen auf der Ebene des Gehirns auf großangelegten Neuromorphen Computerplattformen beeinflusst. Mit der Forderung nach einem hohen Integrationsgrad für das Large-Scale-Computing ergeben sich jedoch auch Probleme wie Zuverlässigkeit und Ausbeute. Daher konzentriert sich diese Arbeit auf fehlertolerante Techniken, die auf Intra- und Inter-Chip-Netzwerk-Routern basieren, um die Zuverlässigkeit des Systems zu verbessern.Die Arbeit schlägt ein fehlertolerantes Schema vor, das aus 3 Schritten besteht (Pfadsuche -> Backtracking -> Änderung der Routing-Tabelle), und entwirft ein System, in dem ein Fehlermonitor fehlerhafte Knoten jederzeit überwachen kann. Diese Arbeit evaluiert eine Neuromorphe Plattform, die mit einem 8x8 Array von FPGA-Chips gebaut und in drei Teilen implementiert wurde:(1) Optimierung des Routing-Schemas für die Fehlertoleranz und Erreichung der Kommunikation zwischen dem Neuromorphen Computersystem und dem Controller.Während des Betriebs unserer Systeme kann es zu dauerhaften Ausfällen kommen, die die Topologie aufgrund der Alterung von Leitungen oder elektronischer Ausfälle verändern. Fehlertolerante Lösungen für große Plattformen wie Spinnaker sind jedoch für unser Computersystem aufgrund seiner Topologie usw. nicht geeignet. Um die Stabilität dieses Rechnersystems zu gewährleisten, wird in dieser Arbeit eine Fehlertoleranzstrategie vorgestellt, die auf der experimentellen Plattform eines gehirnähnlichen Rechnersystems basiert, die auf Pfadfindung, Rückverfolgung und Änderung eines Teils der Routing-Tabelle beruht. Mit dieser Strategie kann eine 100%ige Fehlertoleranz bei Einzelknotenausfällen erreicht und die Fehlertoleranz und Stabilität bei Multiknotenausfällen verbessert werden.(2) Entwurf eines Multicast-Routers mit Fehlertoleranz und Implementierung eines fehlerüberwachbaren Systems. Da es sich bei der Plattform um ein experimentelles Rechensystem handelt, das auf dem SNN-Modell basiert, ist das SNN spärlich und ereignisgesteuert. Im Allgemeinen wird ein Neuron mit mehreren Neuronen verbunden sein. Daher ist der wichtigste Punkt im fehlertoleranten Routing-Design die Unterstützung von Multicast, was bedeutet, dass eine Route gleichzeitig mit den umliegenden Knoten kommunizieren kann. Zweitens verfügt das System nicht über ein Überwachungssystem, was bedeutet, dass es keine Möglichkeit gibt, die während des Betriebs des Computersystems auftretenden Fehler zu überwachen, was die Schwierigkeit der Fehlertoleranz erheblich erhöht. In dieser Arbeit wird einF ehlerüberwachungssystem hinzugefügt. Die Fehler, die während des Betriebs des Systems auftreten, und der Kommunikationsstatus zwischen den Knoten werden über die von Vitis entwickelte Plattform ausgegeben. Die Monitorplattform reduziert nicht nur den Schwierigkeitsgrad der Fehlertoleranz, sondern ermöglicht es auch, den fehlertoleranten Pfad und die Zuverlässigkeit der Lösung jederzeit zu überprüfen.(3) Entwurf eines Routing-Evaluierungshardwaresystems auf der Grundlage der 64 Multi-Chip-Arrays, die mit dem neuen fehlertoleranten Multicast-Router integriert sind,sowie dessen Implementierung und Evaluierung auf einer etablierten FPGA-basiertenNC-Plattform. Der Hauptzweck dieses Abschnitts besteht darin, die Zuverlässigkeit und Robustheit dieses Fehlertoleranzschemas für dieses großangelegte neuromorphe Computersystem zu bewerten. Die Auswertung zeigt, dass die Fehlertoleranz eines einzelnen Knotens in dem 64 FPGA-basierten 2D-Mesh-Netzwerk 100 Prozent beträgt., With the growth of massively integrated networks, the surge in computing power requirements far outweighs the improvements brought about by Moore's Law. The traditional von Neumann architecture, a computer architecture in which data processing and storage need to be performed in separate locations, imposes band width limitations that limit thedevelopment of computing power. To alleviate this limitation, the neuromorphic platformstands out as a new computer architecture in which brain-like computing is employed to simulate the behavior of highly efficient and low-consumption biological brains. Like the human brain, brain-like computing exhibits massively parallel, ubiquitous interconnections and other characteristics. Therefore, multi-core, multi-chip intra- and inter-chip interconnection networks are required. Inter- and intra-chip communication is a crucial factor affecting the performance of simulating brain-level models on large-scale neuromorphic computing platforms. However,issues such as reliability and yield arise with the demand for integration scale for large-scalecomputing. Therefore, this thesis focuses on fault-tolerant techniques based on intra- and inter-chip network routers to improve the system's reliability.The thesis proposes a fault-tolerant scheme which performs 3 steps (path search ->backtracking -> modification of the routing table) and designs a system where a fault monitorcan monitor errant nodes at any time. This work evaluates on a neuromorphic platform built with an 8x8 array of FPGA chips and implemented in three parts:(1) Optimize the fault tolerance routing scheme and achieve the communication between the neuromorphic computing system and controller. During the operation of our systems,permanent failures that change the topology can occur due to wire aging or electronic breakdown. However, fault-tolerant solutions for large-scale platforms such as Spinnaker are not suitable for our computing system due to its topology, etc. Therefore, for the stability ofthis computing system, this paper designs a fault-tolerance strategy based on the scale brain-like computing system experimental platform of pathfinding->backtracking->modifying part ofthe routing table. The scheme can achieve 100% fault tolerance for single-node failures andimprove fault tolerance and stability for multi-node failures.(2) Design a multicast router with fault tolerance and implement an error-monitorable system. Since the platform is an experiment computational system based on the SNN model,the SNN is sparse and event-driven in characteristics. In general, a neuron will connect to multiple neurons. Therefore, the most crucial point in the fault-tolerant routing design is the support of multicast, which means that one route can communicate with the surrounding nodes simultaneously. Secondly, the system does not have a monitoring system, which means that there is no way to monitor the failures that occur during the operation of the computingsystem, which significantly increases the difficulty of fault tolerance. In this thesis, a fault monitoring system is added. The errors that occur during the system's operation and the communication status between the nodes are printed out through the platform designed byVitis. The monitor platform not only reduces the difficulty of fault tolerance but also allows the fault-tolerant path and the reliability of the solution to be checked at any time.(3) Design a routing evaluation hardware system based on the 64 multi-chip arrays integrated with the new fault-tolerance multicast router and implement and evaluate it on an established FPGA-based NC platform. The primary purpose of this section is to evaluate there liability and robustness of this fault-tolerance scheme for this large-scale neuromorphiccomputing system. The evaluation shows that the single-node fault tolerance in the 64 FPGA-based 2D-Mesh network is 100 percent.
- Published
- 2023
- Full Text
- View/download PDF