Peignier , Sergio, Laboratoire d'InfoRmatique en Image et Systèmes d'information ( LIRIS ), Université Lumière - Lyon 2 ( UL2 ) -École Centrale de Lyon ( ECL ), Université de Lyon-Université de Lyon-Université Claude Bernard Lyon 1 ( UCBL ), Université de Lyon-Centre National de la Recherche Scientifique ( CNRS ) -Institut National des Sciences Appliquées de Lyon ( INSA Lyon ), Université de Lyon-Institut National des Sciences Appliquées ( INSA ) -Institut National des Sciences Appliquées ( INSA ), Artificial Evolution and Computational Biology ( BEAGLE ), Laboratoire de Biométrie et Biologie Evolutive ( LBBE ), Université Claude Bernard Lyon 1 ( UCBL ), Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique ( Inria ) -Centre National de la Recherche Scientifique ( CNRS ) -Université Claude Bernard Lyon 1 ( UCBL ), Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique ( Inria ) -Centre National de la Recherche Scientifique ( CNRS ) -Inria Grenoble - Rhône-Alpes, Institut National de Recherche en Informatique et en Automatique ( Inria ) -Laboratoire d'InfoRmatique en Image et Systèmes d'information ( LIRIS ), Université de Lyon-Institut National des Sciences Appliquées ( INSA ) -Institut National des Sciences Appliquées ( INSA ) -Université Lumière - Lyon 2 ( UL2 ) -École Centrale de Lyon ( ECL ), Université de Lyon, INSA Lyon, Christophe Rigotti, Guillaume Beslon(guillaume.beslon@inria.fr), Université de Lyon-Institut National des Sciences Appliquées ( INSA ) -Institut National des Sciences Appliquées ( INSA ) -Inria Grenoble - Rhône-Alpes, Institut National de Recherche en Informatique et en Automatique ( Inria ) -Institut National de Recherche en Informatique et en Automatique ( Inria ) -Laboratoire de Biométrie et Biologie Evolutive ( LBBE ), Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique ( Inria ) -Centre National de la Recherche Scientifique ( CNRS ) -Centre National de la Recherche Scientifique ( CNRS ) -Cardiovasculaire, métabolisme, diabétologie et nutrition ( CarMeN ), Institut National de la Recherche Agronomique ( INRA ) -Université Claude Bernard Lyon 1 ( UCBL ), Université de Lyon-Université de Lyon-Institut National des Sciences Appliquées de Lyon ( INSA Lyon ), Université de Lyon-Institut National des Sciences Appliquées ( INSA ) -Institut National des Sciences Appliquées ( INSA ) -Hospices Civils de Lyon ( HCL ) -Institut National de la Santé et de la Recherche Médicale ( INSERM ) -Institut National de la Recherche Agronomique ( INRA ) -Université Claude Bernard Lyon 1 ( UCBL ), and Université de Lyon-Hospices Civils de Lyon ( HCL ) -Institut National de la Santé et de la Recherche Médicale ( INSERM )
Recent technical advances have facilitated the massive acquisition of data described by a large number of measurable properties (high dimensional datasets).New technologies have also enabled the continuous acquisition of data over time, providing users with possibly infinite data streams.The analysis of both high dimensional and streaming data by means of traditional clustering algorithm turn out to be troublesome.In the context of high dimensional data, common similarity measures used by clustering techniques tend to be less meaningful, leading to a degradation of the clustering quality.Moreover, in the case of data streams, the large volume of data does not allow to run several passes on the dataset.In order to overcome these problems, a variety of new approaches has been proposed in the literature.An important task that has been investigated in the context of high dimensional data is subspace clustering.This data mining task is recognized as more general and complicated than standard clustering, since it aims to detect groups of similar objects called clusters, and at the same time to find the subspaces where these similarities appear.Furthermore, subspace clustering approaches as well as traditional clustering ones have recently been extended to deal with data streams by updating clustering models in an incremental way.The different algorithms that have been proposed in the literature, rely on very different algorithmic foundations.Among these approaches, evolutionary algorithms have been under-explored, even if these techniques have proven to be valuable addressing other NP-hard problems.The aim of this thesis was to take advantage of new knowledge from evolutionary biology in order to conceive evolutionary subspace clustering algorithms for static datasets and dynamic data streams.Chameleoclust, the first algorithm developed in this work, takes advantage of the large degree of freedomprovided by bio-like features such as a variable genome length, the existence of functional and non-functional elements and mutation operators including chromosomal rearrangements.KymeroClust, our second algorithm, is a k-medians based approach that relies on the duplication and the divergence of genes, a cornerstone evolutionary mechanism.SubMorphoStream, the last one, tackles the subspace clustering task over dynamic data streams. It relies on two important mechanisms that favor fast adaptation of bacteria to changing environments, namely gene amplification and foreign genetic material uptake.All these algorithms were compared to the main state-of-the-art techniques, obtaining competitive results. Results suggest that these algorithms are useful complementary tools in the analyst toolbox.In addition, two applications called EvoWave and EvoMove have been developed to assess the capacity of these algorithms to address real world problems.EvoWave is an application that handles the analysis of Wi-Fi signals to detect different contexts.EvoMove, the second one, is a musical companion that produces sounds based on the clustering of dancer moves captured using motion sensors.; Les récents progrès techniques ont facilité l'acquisition massive de données décrites par un grand nombre de propriétés mesurables (jeu de données à forte dimensionnalité).De plus, le développement de nouvelles technologies a permis l'acquisition continue des données, fournissant aux utilisateurs des flux de données potentiellement infinis.Dans ces deux cas, les algorithmes traditionnels de clustering s'avèrent souvent insuffisants.En effet, les mesures de similarité, couramment utilisées par les techniques de clustering, rencontrent des limites lorsqu'elles sont utilisées dans des espaces à forte dimensionnalité. Ce phénomène conduit à une dégradation de la qualité du modèle de clustering obtenu.D'autre part, les grands volumes des flux de données ne permettent pas d'utiliser des techniques qui nécessitent l'exécution de plusieurs passes sur le jeu de données.Pour surmonter ces problèmes, de nouvelles approches ont été proposées dans la littérature.Une tâche importante qui a été étudiée dans le contexte de données à forte dimensionnalité est la tâche connue sous le nom de subspace clustering.Le subspace clustering est généralement reconnu comme étant plus compliqué que le clustering standard, étant donné que cette tâche vise à détecter des groupes d'objets similaires entre eux (clusters), et qu'en même temps elle vise à trouver les sous-espaces où apparaissent ces similitudes.Le subspace clustering, ainsi que le clustering traditionnel ont été récemment étendus au traitement de flux de données en mettant à jour les modèles de clustering de façon incrémentale.Les différents algorithmes qui ont été proposés dans la littérature, reposent sur des bases algorithmiques très différentes.Parmi ces approches, les algorithmes évolutifs ont été sous-explorés, même si ces techniques se sont avérées très utiles pour traiter d'autres problèmes NP-difficiles.L'objectif de cette thèse a été de tirer parti des nouvelles connaissances issues de l'évolution afin de concevoir des algorithmes évolutifs qui traitent le problème du subspace clustering sur des jeux de données statiques ainsi que sur des flux de données dynamiques.Chameleoclust, le premier algorithme développé au cours de ce projet, tire partie du grand degré de liberté fourni par des éléments bio-inspirés tels qu'un génome de longueur variable, l'existence d'éléments fonctionnels et non fonctionnels et des opérateurs de mutation incluant des réarrangements chromosomiques.KymeroClust, le deuxième algorithme conçu dans cette thèse, est un algorithme de k-medianes qui repose sur un mécanisme évolutif important: la duplication et la divergence des gènes.SubMorphoStream, le dernier algorithme développé ici, aborde le problème du subspace clustering sur des flux de données dynamiques.Cet algorithme repose sur deux mécanismes qui jouent un rôle clef dans l'adaptation rapide des bactéries à des environnements changeants: l'amplification de gènes et l'absorption de matériel génétique externe.Ces algorithmes ont été comparés aux principales techniques de l'état de l'art, et ont obtenu des résultats compétitifs.En outre, deux applications appelées EvoWave et EvoMove ont été développés pour évaluer la capacité de ces algorithmes à résoudre des problèmes réels.EvoWave est une application d'analyse de signaux Wi-Fi pour détecter des contextes différents.EvoMove est un compagnon musical artificiel qui produit des sons basés sur le clustering des mouvements d'un danseur, décrits par des données provenant de capteurs de déplacements.