Back to Search Start Over

A machine-learning-guided framework for fault-tolerant DNNs

Authors :
Traiola, Marcello
Kritikakou, Angeliki
Sentieys, Olivier
Architectures matérielles spécialisées pour l’ère post loi-de-Moore (TARAN)
Inria Rennes – Bretagne Atlantique
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-ARCHITECTURE (IRISA-D3)
Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA)
Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes)
Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique)
Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes)
Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA)
Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique)
Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)
ANR-21-CE24-0015,RE-TRUSTING,Architectures matérielles fiable pour l'Intelligence Artificielle de confiance(2021)
Source :
DATE 2023 – 26th IEEE/ACM Design, Automation and Test in Europe, DATE 2023 – 26th IEEE/ACM Design, Automation and Test in Europe, Apr 2023, Antwerp, Belgium. pp.1-2
Publication Year :
2023
Publisher :
HAL CCSD, 2023.

Abstract

International audience; Deep Neural Networks (DNNs) show promising performance in several application domains. Nevertheless, DNN results may be incorrect, not only because of the network intrinsic inaccuracy, but also due to faults affecting the hardware. Ensuring the fault tolerance of DNN is crucial, but common fault tolerance approaches are not cost-effective, due to the prohibitive overheads for large DNNs. This work proposes a comprehensive framework to assess the fault tolerance of DNN parameters and cost- effectively protect them. As a first step, the proposed framework performs a statistical fault injection. The results are used in the second step with classification-based machine learning methods to obtain a bit-accurate prediction of the criticality of all network parameters. Last, Error Correction Codes (ECCs) are selectively inserted to protect only the critical parameters, hence entailing low cost. Thanks to the proposed framework, we explored and protected two Convolutional Neural Networks (CNNs), each with four different data encoding. The results show that it is possible to protect the critical network parameters with selective ECCs while saving up to 79% memory w.r.t. conventional ECC approaches.

Details

Language :
English
Database :
OpenAIRE
Journal :
DATE 2023 – 26th IEEE/ACM Design, Automation and Test in Europe, DATE 2023 – 26th IEEE/ACM Design, Automation and Test in Europe, Apr 2023, Antwerp, Belgium. pp.1-2
Accession number :
edsair.dedup.wf.001..606769207caef7d6c2a3e68a31e3f8c0