Back to Search
Start Over
Reconstruction of the transmission of a virus during an epidemic by statistical learning on genomic data
- Source :
- Statistics [math.ST]. Aix-Marseille Université, 2020. English
- Publication Year :
- 2020
- Publisher :
- HAL CCSD, 2020.
-
Abstract
- To infer transmission links of infectious diseases between hosts (e.g individual, households, fields), empirical and model-based approaches exploiting pathogen sequence data are the most advantageous. Such approaches inform which hosts contain pathogen variants that are most closely related to each other. In this thesis, we investigate an alternative approach grounded on statistical learning and based on a semi-parametric pseudo-evolutionary model. This pseudo-model describes transitions between sets of sequences observed from an infected host and its putative sources. And, our approach consists on using this model applied to training data (e.g contact tracing) to learn the structure of epidemiological links and therefore to infer links for the whole dataset. The efficiency of our approach aiming at estimating epidemiological links, is assessed by applying it to different real cases in animal, human and plant epidemics. Then, we applied it to simulated data generated with diverse models for the viral evolution and transmission, performing a sensitivity analysis of the relationship between the accuracy of our approach and the demo-genetic factors that may impact the virus evolution and transmission. Such innovate approach has the potential to be particularly valuable in the case of a risk of erroneous mechanistic assumptions and sequencing errors, it is adaptable to very different contexts from animal, human and plant epidemics, and it is sufficiently parsimonious to allow handling big data sets in the future.<br />Dans le but de mieux comprendre la dynamique des maladies infectieuses, ma thèse porte sur le développement d'une approche statistique visant à estimer des liens de transmission de telles maladies à partir de données de séquençage haut-débit. Ces données sont collectées sur plusieurs unités hôtes et reflétant le polymorphisme intra-hôte du virus d’intérêt. L’approche que je propose est essentiellement fondée sur un modèle semi-paramétrique et pseudo-évolutionniste, une technique d’apprentissage statistique et une quantité limitée de données d’entrainement. Le modèle permet de calculer des mesures de pseudo-vraisemblance des transitions entre des ensembles de séquences observées chez l’unité hôte infectée et chez ses sources putatives. Il est calibré sur les données d’entrainement pour apprendre la structure des liens épidémiologiques réels puis appliqué à l’ensemble de données pour inférer des liens entre toutes les unités hôtes du jeu de données. Cette approche est appliquée à des données réelles en santé humaine, animale et végétale ainsi qu’à des données simulées. Les données simulées sont générées sous des scénarios démo-génétiques significativement divers avec un modèle original que j’ai développé et qui permet la génération de dynamiques démo-génétiques hors équilibre et à variations rapides pour la population virale intra-hôte. En utilisant ce modèle, j’ai effectué une analyse de sensibilité formelle de la relation entre la performance de notre approche d’inférence et les facteurs démo-génétiques qui peuvent avoir un impact sur l’évolution, la diversité et la transmission du virus.
- Subjects :
- Modèles de substitution
Apprentissage statistique
Substitutions models
Semi-parametric model
[MATH.MATH-ST]Mathematics [math]/Statistics [math.ST]
[SDV.MHEP.MI]Life Sciences [q-bio]/Human health and pathology/Infectious diseases
Pathogen spread
Modèles cinétiques viraux
Genomic data
Dynamique de transmission
Learning
Épidémiologie moléculaire
Within-host pathogen diversity
[MATH.MATH-ST] Mathematics [math]/Statistics [math.ST]
Données génomiques
Diversité intra-hôte des pathogènes
Infectious disease
Training data
Pseudo-vraisemblance
Modèle semi-paramétrique
Pseudo-likelihood
Transmission dynamics
[SDV.SPEE] Life Sciences [q-bio]/Santé publique et épidémiologie
Viral kinetic models
Données d'apprentissage
[SDV.MHEP.MI] Life Sciences [q-bio]/Human health and pathology/Infectious diseases
[SDV.SPEE]Life Sciences [q-bio]/Santé publique et épidémiologie
Subjects
Details
- Language :
- English
- Database :
- OpenAIRE
- Journal :
- Statistics [math.ST]. Aix-Marseille Université, 2020. English
- Accession number :
- edsair.dedup.wf.001..21c6181fcde6b630f05cca9c5aa2de53