Flutre, Timothée, Unité de Recherche Génomique Info (URGI), Institut National de la Recherche Agronomique (INRA), Université Paris-Diderot - Paris VII, Hadi Quesneville et Catherine Feuillet((hadi.quesneville[[at]]versailles.inra.fr,catherine.feuillet[[at]]clermont.inra.fr)), INRA ASC, Université Paris Diderot - Paris 7, Hadi Quesneville, and Catherine Feuillet
mention "très honorable avec félicitations"; Any living organism is the result of complex interactions between its genome and its environment, interactions characterizedby transfers of matter and energy required for the survival of the organism and the transmission of its genome. Since the discovery in the years 1910 that the chromosome is the mechanical basis of the genetic information, the biologists study genomes in order to decipher the mecanisms and processes operating in the development of organisms and the evolution of populations. Thanks to the technological improvements of the last decades, several genomes were fully sequenced, their number increasing quickly, but they are far from being deciphered. Indeed, some of their components, the transposable elements, are still not well understood, although they were detected in almost every species studied so far, and they can account for up to 90% of their genome. Transposable elements are DNA sequences that can move and duplicate within genomes. They hence have a major impact on genome structure but also on the expression of neighbouring genes, notably via epigenetic mechanisms. Their evolution is also peculiar as they have a non-mendelian vertical transmission and as numerous cases of horizontal transfers were highlighted. However, except for some model organisms for which reference quences are available, the annotation of transposable elements often corresponds to a bottleneck in the analysis of genomic sequences. Moreover, comparative genomics studies have shown that genomes are much more dynamic than previously expected, particularly in plants, thus making even more difficult the precise annotation of transposable elements. During my PhD work, I started by comparing existing computer programs used in de novo approaches of transposable element identification. In this aim, I designed a test protocol on the genomes of Drosophila melanogaster and Arabidopsis thaliana. As a result, I proposed a de novo approach combining several tools, thus enabling the automatic recovery of a great numberof reference sequences. Moreover, I showed that our approach highlighted the structural variations present within well-known families, notably by distinguishing structural variants belonging to a same family of transposable elements, thus reflecting the diversification of such families during their evolution. This approach was implemented in a package (REPET) making possible the analysis of transposable elements in numerous genomes from plants, insects and fungi among others. This work lead to a roadmap describing, from a practical point of view, how to annotate the transposable element content of any newly sequenced genome. As a consequence, many questions about the impact of these elements on the evolution of genome structure can now be tackled using several genomes more or less related withe ach other. I also propose several perspectives, notably the simulation of the data required for the improvement of the tools, a way complementary to the modeling of transposable element dynamics.; Tout organisme vivant est le produit d'interactions complexes entre son génome et son environnement, interactions caractérisées par des échanges de matière et d'énergie indispensables à la survie de l'organisme et la transmission de son génome. Depuis la découverte dans les années 1910 que le chromosome est le support de l'information génétique, les biologistes étudient les génomes afin de décrypter les mécanismes et processus à l'oeuvre dans le développement des organismes et l'évolution des populations. Grâce aux améliorations technologiques des dernières décennies, plusieurs génomes ont été entièrement séquencés, leur nombre s'accroissant rapidement, mais ils sont loin d'être décryptés pour autant. En effet, certains de leurs composants, les éléments transposables, sont encore mal compris, bien qu'ils aient été détectés chez quasiment toutes les espèces étudiées, et qu'ils puissent représenter jusqu'à 90% du contenu total de leurs génomes. Les éléments transposables sont des fragments du génome possédant la particularité d'être mobiles. Ils ont donc un impact majeur sur la structure des génomes mais également sur l'expression des gènes avoisinants, notamment via des mécanismes épigénétiques. Leur évolution est aussi particulière étant donné qu'ils ont une transmission verticale non-mendélienne et que de nombreux cas de transferts horizontaux ont été mis en évidence. Mais, à part dans le cas de certains organismes modèles pour lesquels nous disposons de séquences de référence, l'annotation des éléments transposables représente souvent un goulot d'étranglement dans l'analyse des séquences génomiques. A cela s'ajoute le fait que les études de génomique comparée montrent que les génomes sont bien plus dynamiques qu'on ne le croyait, en particulier ceux des plantes, ce qui complique d'autant l'annotation précise des éléments transposables. Pendant mes travaux de thèse, j'ai commencé par comparer les programmes informatiques existants utilisés dans les approches d'annotation de novo des éléments transposables. Pour cela, j'ai mis au point un protocole de test sur les génomes de Drosophila melanogaster et Arabidopsis thaliana. Ceci m'a permis de proposer une approche de novo combinant plusieurs outils, capable ainsi de reconstruire automatiquement un grand nombre de séquences de référence. De plus, j'ai pu montrer que notre approche mettait en évidence les variations structurales au sein de familles bien connues, notamment en distinguant des variants structuraux appartenant à une même famille d'éléments transposables, reflétant ainsi la diversification de ces familles au cours de leur évolution. Cette approche a été implémentée dans une suite d'outils (REPET) rendant possible l'analyse des éléments transposables de nombreux génomes de plantes, insectes, champignons et autres. Ces travaux ont abouti à une feuille de route décrivant de manière pratique comment annoter le contenu en éléments transposables de tout génome nouvellement séquencé. Par conséquent, de nombreuses questions concernant l'impact de ces éléments sur l'évolution de la structure des génomes peuvent maintenant être abordées chez différents génomes plus ou moins proches. Je propose également plusieurs pistes de recherche, notamment la simulation des données nécessaires à l'amélioration des algorithmes de détection, démarche complémentaire de la modélisation de la dynamique des éléments transposables.