1. Neural networks for survival analysis and predictive maintenance
- Author
-
Achraf Bennis and STAR, ABES
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,Loi de Weibull ,Neural Networks ,Données censurées ,Censored Data ,Weibull Distribution ,Réseaux profonds - Abstract
This work focuses on the problem of survival analysis via a deep learning approach. The main goal is to estimate the risk of an event of particular interest at the individual and then propose a maintenance solution to minimize this risk given a limited budget. We use the Weibull distribution which is particularly popular and frequently used in survival analysis since it is adequate for modeling the time-to-event of real-world events with small or large data, and is sufficiently flexible due to the range of distribution shapes determined by its shape and scale parameters. However, the presence of censored samples is frequent in survival data, and ignoring them induces a significant bias in the risk estimation. To address this problem, we investigate, in this work, the problem of estimating the risk of an individual to experience an event of interest. We propose, in the first place, a deep-learning approach, DeepWeiSurv, assuming that the underlying timeto-event distribution can be modeled by a finite mixture of Weibull distributions whose respective parameters are to be estimated by the network. We present and describe the architecture of this network and the loss function, with which it is trained, that takes into account the right-censored data. Experiments on synthetic and real-world datasets show that this approach offers better predictive performance than state-of-the-art methods. However, the performance of this model depends on the size of the mixture which is described as a model parameter and this may be problematic in a real-world problem. To resolve this, we propose a novel approach, DPWTE, described as an extended version of DeepWeiSurv with practically the same architecture, that does not fix the size of the mixture but rather fixes an upper bound sufficiently large and finds the optimal combination of Weibull distributions to model the underlying timeto-event distribution. To accomplish this, we introduce an element-wise multiplication layer, which we call the Sparse Weibull Mixture layer, which selects through its weights the Weibull distributions that have a significant contribution to the time-to-event distribution modeling. To stimulate this selection process, we apply a sparse regularization on this layer by adding a penalty term to the loss function. We validate this model on both simulated and real-world datasets, showing that it yields a performance improvement over DeepWeiSurv and the most performant state-of-the-art methods. Afterward, we propose a solution to minimize the risk detected by these two approaches while respecting budgetary constraints. To do this, we consider a constrained optimization problem that consists of minimizing the probability risk of a given subject from the survival data, assuming that each feature modification has a given cost. With the budget constraints being modeled by a weighted L1 ball, we propose to solve this problem numerically using the Projected Gradient Descent algorithm. We consider three scenarios for the probability risk function: the black box for which we use LIME, the semi-white box, and the full-white box that we render robust against numerical instability using a gradient regularization technique. [...], Cette thèse se focalise sur le problème de l'analyse de survie via une approche d'apprentissage profond. L'objectif principal est d'estimer le risque d'un événement donné à l'échelle individuelle. Nous utilisons la loi de Weibull qui est fréquemment utilisée dans l'analyse de survie car elle est adéquate pour modéliser le temps jusqu'à l'événement dans un cadre réel en utilisant une base de données quelle que soit sa taille, et est suffisamment flexible en raison de l'ensemble de formes, diverses et variées, de distribution déterminées par ses paramètres de forme et d'échelle. Cependant, la présence d'échantillons censurés est fréquente dans les données de survie, et les ignorer induit un biais significatif dans l'estimation du risque. Pour résoudre ce problème, nous étudions le problème de l'estimation du risque qu'un événement d'intérêt se produise chez un individu. Nous proposons, en premier lieu, une approche d'apprentissage profond, DeepWeiSurv, en supposant que la distribution temps-événement sous-jacente peut être modélisée par un mélange fini de lois de Weibull dont les paramètres respectifs sont à estimer par le réseau. Nous présentons et décrivons l'architecture de ce réseau et la fonction de perte qui prend en compte les données censurées à droite. Des expériences sur des ensembles de données synthétiques et réelles montrent que cette approche offre une meilleure performance prédictive que les méthodes de l'état de l'art. Cependant, la performance de ce modèle dépend de la taille du mélange qui est décrite comme un paramètre du modèle et cela peut être problématique dans un cadre réel. Pour résoudre ce problème, nous proposons une nouvelle approche, DPWTE, décrite comme une version étendue de DeepWeiSurv avec pratiquement la même architecture, qui ne fixe pas la taille du mélange mais fixe plutôt une limite supérieure suffisamment grande et trouve la combinaison optimale de lois de Weibull pour modéliser la distribution temps-événement sousjacente. Pour ce faire, nous introduisons une couche de multiplication par éléments qui sélectionne par ses poids les distributions de Weibull qui ont une contribution significative à la modélisation de la distribution temps-événement. Pour stimuler ce processus de sélection, nous appliquons une régularisation sparse sur cette couche en ajoutant un terme de pénalité à la fonction de perte. Nous validons ce modèle sur des ensembles de données simulées et réelles, en montrant qu'il permet d'améliorer les performances par rapport à DeepWeiSurv et aux méthodes les plus connues de l'état de l'art. Par la suite, nous proposons une solution pour minimiser le risque détecté par ces deux approches tout en respectant les contraintes budgétaires. Pour ce faire, nous considérons un problème d'optimisation sous contrainte qui consiste à minimiser la probabilité de risque d'un sujet donné à partir des données de survie, en supposant que chaque modification de caractéristique a un coût donné. Les contraintes de budget étant modélisées par une boule L1 pondérée, nous proposons de résoudre ce problème numériquement en utilisant l'algorithme du gradient projeté. Nous considérons trois scénarios pour la fonction de risque de probabilité : la boîte noire pour laquelle nous utilisons LIME, la boîte semi-blanche, et la boîte blanche que nous rendons robuste contre l'instabilité numérique en utilisant une technique de régularisation du gradient.[...]