101. Approches de théorie des graphes d'ordre supérieur pour diverses données omiques
- Author
-
Battistella, Enzo, Radiothérapie Moléculaire et Innovation Thérapeutique (RaMo-IT), Institut Gustave Roussy (IGR)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université Paris-Saclay, OPtimisation Imagerie et Santé (OPIS), Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre de vision numérique (CVN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-CentraleSupélec-Université Paris-Saclay, Université Paris-Saclay, Eric Deutsch, Nikos Paragios, Maria Vakalopoulou, and STAR, ABES
- Subjects
Conditional Random Field ,Omics ,Omique ,[SDV.CAN]Life Sciences [q-bio]/Cancer ,[STAT.ML] Statistics [stat]/Machine Learning [stat.ML] ,Sélection de feature ,Cancérologie ,Oncology ,[STAT.ML]Statistics [stat]/Machine Learning [stat.ML] ,[SDV.CAN] Life Sciences [q-bio]/Cancer ,[MATH.MATH-ST]Mathematics [math]/Statistics [math.ST] ,Clustering/Classification ,Feature Selection ,[INFO.INFO-BI]Computer Science [cs]/Bioinformatics [q-bio.QM] ,Covid-19 ,[MATH.MATH-ST] Mathematics [math]/Statistics [math.ST] ,[INFO.INFO-BI] Computer Science [cs]/Bioinformatics [q-bio.QM] - Abstract
This thesis presented conditional-random-field-based approaches for medical applications on diverse omics data. This methodology allowed leveraging more complex, structural information and notable assets from graph theory, particularly interesting to express intricate biological properties. We demonstrated their usefulness for clustering and feature selection towards classification. Their relevance was exemplified over several medical applications and omics data.First, we proposed a generic and resilient feature selection and classification pipeline we developed for COVID-19 patients staging and outcome prediction using only CT scans and clinical information. Relying on an automated segmentation technique, we extracted imaging information. After a required step of dimensionality reduction, we singled out few relevant factors for classification. We obtained promising performance outperforming radiologist experts on all the tasks. We further extended and adapted our methodology to cope with other different omics data, diseases, and medical expectations.Second, we focused on a clustering process towards the determination of a clinically relevant gene signature for pan-cancer lesions characterization. Oncology is a perfectly suited area for this kind of approach as tumors present a high heterogeneity while being a major affliction worldwide. Many studies are involved in its description through genomics. However, the task's complexity dwells in the data's large dimensionality and the experimental cost for identifying unknown gene functions. We highlighted our compact signature's relevance by resorting to unsupervised and supervised tumor types and subtypes distinction combined with statistically significant biological considerations.Finally, we formulated a new higher-order distance learning framework for feature selection and weighting, relying on conditional random fields and clustering. We proposed a mathematical optimization method for its resolution able to handle the high-order information complexity efficiently. Strong from this paradigm's expressiveness, we investigated the use of high-order graph theory properties as cliques, eccentricity, connectivity, or path lengths. We established those attributes' informativeness in classification settings and reported superior results than with standard approaches., Cette thèse introduit l’usage d’approches reposant sur les « conditional random fields » à diverses applications médicales et données omiques. Ces méthodes permettent de tirer parti au mieux d’informations structurelles lourdes à interpréter et analyser. En particulier, l’emploi de la théorie des graphes d’ordre supérieur revêt un intérêt majeur pour l’expression des relations biologiques complexes. Nous démontrons leur pertinence dans les domaines du « clustering » et de la sélection de variables pour la classification. Nous nous sommes appuyés sur plusieurs applications médicales et données omiques pour mettre ces résultats en lumière. Dans un premier temps, nous avons proposé un système générique et résilient de sélection de variables et de classification que nous avons développé pour déterminer la sévérité de la maladie de patients atteints de la COVID-19. Dans ce but, nous nous sommes appuyés sur des informations extraites de segmentations automatiques des organes et zones lésées que nous avons combinées avec des informations cliniques. Nous avons identifé un nombre restraint de facteurs déterminants la classification. Nous avons obtenu des performances prometteuses dépassant celles de radiologues experts sur les tâches considérées. Nous avons étendu plus avant et adapté cette méthodologie pour traiter d'autres données omiques, maladies et attendus médicaux. Par la suite, nous avons étudié un procédé de clustering pour la définition d'une signature de gènes présentant un intérêt clinique vis-à-vis de la caractérisation pan-cancer de lésions. Bien des études se sont essayées à la description du cancer grâce à la génomique. Cependant, la grande dimensionalité des données représente un formidable obstacle. Nous avons prouvé la pertinence de la signature génétique très compacte générée par notre méthode en recourrant à des approches supervisées et non-supervisées pour la caractérisation des types et sous-types de tumeurs. Finalement, nous avons défini une nouvelle approche d'apprentissage de distance d'ordre supérieur à visée de sélection et de pondération de variables. Fort de la grande expressivité de ce paradigme, nous avons exploré diverses propriétés de théorie des graphes d'ordre supérieur et avons établi que, dans le cadre d'une tâche de classification, ils possèdent une grande expressivité et permettent d'obtenir des résultats supérieurs à ceux des méthodes standards.
- Published
- 2021