1. Un détecteur de fautes pour les plates-formes HPC
- Author
-
Bosilca, George, Bouteiller, Aurélien, Guermouche, Amina, Hérault, Thomas, Robert, Yves, Sens, Pierre, Dongarra, Jack, Innovative Computing Laboratory [Knoxville] (ICL), The University of Tennessee [Knoxville], Optimisation des ressources : modèles, algorithmes et ordonnancement (ROMA), Inria Grenoble - Rhône-Alpes, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire de l'Informatique du Parallélisme (LIP), Centre National de la Recherche Scientifique (CNRS)-Université de Lyon-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-École normale supérieure - Lyon (ENS Lyon)-Centre National de la Recherche Scientifique (CNRS)-Université de Lyon-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-École normale supérieure - Lyon (ENS Lyon), École normale supérieure - Lyon (ENS Lyon), Large-Scale Distributed Systems and Applications (Regal), Laboratoire d'Informatique de Paris 6 (LIP6), Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS)-Inria Paris-Rocquencourt, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Oak Ridge National Laboratory [Oak Ridge] (ORNL), UT-Battelle, LLC, University of Manchester [Manchester], INRIA, École normale supérieure de Lyon (ENS de Lyon)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure de Lyon (ENS de Lyon)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Université de Lyon-Centre National de la Recherche Scientifique (CNRS), and École normale supérieure de Lyon (ENS de Lyon)
- Subjects
Failure Detection ,Fault-Tolerance ,Détecteurs de fautes ,Tolérance aux pannes ,MPI ,[INFO]Computer Science [cs] - Abstract
Building an infrastructure for exascale applications requires, in addition to many other key components, a stable and efficient failure detector. This paper describes the design and evaluation of a robust failure detector, that can maintain and distribute the correct list of alive resources within proven and scalable bounds. The detection and distribution of the fault information follow different overlay topologies that together guarantee minimal disturbance tothe applications. A virtual observation ring minimizes the overhead by allowing each node to be observed by another single node, providing an unobtrusive behavior. The propagation stage is using a non uniform variant of a reliable broadcast over a circulant graph overlay network, and guarantees a logarithmic fault propagation. Extensive simulations, together with experiments on the Titan ORNL supercomputer, show that the algorithm performs extremely well and exhibits all the desired properties of an exascale-ready algorithm.; Ce travail présente un détecteur de fautes pour plates-formes HPC. Ce détecteur maintient et diffuse la liste des ressources vivantes en temps logarithmique dans le pire cas, et ce même si un nombre non borné de fautes survient dans la plate-forme, à condition toutefois que celles-ci ne soient pas trop rapprochées dans le temps. De nombreuses simulations et expériences sur le supercalculateur Titan à ORNL montrent toute la performance et la scalabilité de notre algorithme.
- Published
- 2017