Back to Search Start Over

Combining Checkpointing and Replication for Reliable Execution of Linear Workflows with Fail-Stop and Silent Errors

Authors :
Benoit, Anne
Cavelan, Aurélien
Ciorba, Florina
Le Fèvre, Valentin
Robert, Yves
Optimisation des ressources : modèles, algorithmes et ordonnancement (ROMA)
Inria Grenoble - Rhône-Alpes
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire de l'Informatique du Parallélisme (LIP)
École normale supérieure - Lyon (ENS Lyon)-Université Claude Bernard Lyon 1 (UCBL)
Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Lyon (ENS Lyon)-Université Claude Bernard Lyon 1 (UCBL)
Université de Lyon-Université de Lyon-Centre National de la Recherche Scientifique (CNRS)
Georgia Institute of Technology [Atlanta]
Department of Computer Science (University of Basel)
University of Basel (Unibas)
The University of Tennessee [Knoxville]
ROMA (INRIA Rhône-Alpes / LIP Laboratoire de l’Informatique du Parallélisme)
LIP - Laboratoire de l’Informatique du Parallélisme
Source :
[Research Report] RR-9235, ROMA (INRIA Rhône-Alpes / LIP Laboratoire de l’Informatique du Parallélisme); LIP-Laboratoire de l’Informatique du Parallélisme. 2018, pp.1-32
Publication Year :
2018
Publisher :
HAL CCSD, 2018.

Abstract

Large-scale platforms currently experience errors from two different sources,namely fail-stop errors (which interrupt the execution) and silent errors (which strikeunnoticed and corrupt data). This work combines checkpointing and replication for thereliable execution of linear workflows on platforms subject to these two error types. Whilecheckpointing and replication have been studied separately, their combination has not yetbeen investigated despite its promising potential to minimize the execution time of linearworkflows in error-prone environments. Moreover, combined checkpointing and replicationhas not yet been studied in the presence of both fail-stop and silent errors. The combinationraises new problems: for each task, we have to decide whether to checkpoint and/orreplicate it to ensure its reliable execution. We provide an optimal dynamic programmingalgorithm of quadratic complexity to solve both problems. This dynamic programmingalgorithm has been validated through extensive simulations that reveal the conditions inwhich checkpointing only, replication only, or the combination of both techniques, lead toimproved performance.; Les plateformes à grande échelle subissent des erreurs de deux sources différentes, à savoir les erreurs fatales (qui interrompent l’exécution de l’application) et les erreurs silencieuses (qui ne sont pas détectées lorsqu’elles arrivent et corrompent les données). Ce rapport étudie la combinaison des techniques de checkpoint et de réplication pour l’exécution efficace et sûre de chaînes de tâches sur des plates-formes à grande échelle en présence d’erreurs fatales. Ces deux techniques ont été étudiées séparément mais leur combinaison ouvre de nouvelles perspectives pour la minimisation du temps d’exécution dans des environnements sujets aux fautes. De plus, la combinaison des checkpoints et de la réplication n’a jamais été étudiée avec la présence de fautes fatales et silencieuses à la fois. Pour chaque tâche, on doit décider s’il faut la checkpointer et /ou s’il faut la répliquer. Nous proposons un algorithme de programmation dynamique de complexité quadratique en le nombre de tâches pour résoudre le problème, et montrons expérimentalement, via un jeu complet de simulations, dans quelles conditions les deux techniques, prises séparément ou combinées, peuvent améliorer les performances.

Details

Language :
English
Database :
OpenAIRE
Journal :
[Research Report] RR-9235, ROMA (INRIA Rhône-Alpes / LIP Laboratoire de l’Informatique du Parallélisme); LIP-Laboratoire de l’Informatique du Parallélisme. 2018, pp.1-32
Accession number :
edsair.od.......212..25c1e9c9818d7b705d5ebb4bc32fdbfa