Back to Search Start Over

Potentiels du séquençage des ARN pour explorer les micro-variations du génome

Authors :
Degalez, Fabien
AGROCAMPUS OUEST
Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)
INRAE – PEGASE – UMR 1348, 16 Le Clos, Domaine de La Prise, 35590 Saint-Gilles
Frédéric Lecerf
Sandrine Lagarrigue
Frédéric Jehl
Source :
Sciences du Vivant [q-bio]. 2020
Publication Year :
2020
Publisher :
HAL CCSD, 2020.

Abstract

In this internship, we finalized a pipeline for the detection of reliable mononucleotide variants (SNP) from RNA sequencing data (RNA-seq) and applied it to RNA-seq data from 10 commercial and experimental broiler and egg-laying hen populations. A concordance analysis of the variants obtained in RNA-seq and DNA-seq 20X (genomic DNA sequencing of the same tissues) was carried out, for the first time, on the same individuals and in significant numbers (15 hens). We thus show that RNA-seq data are an interesting polymorphism resource to exploit because, at equal expressed regions, RNA-seq allows the detection of more than 85% of the SNP captured in DNA-seq - even more with several tissues analysed - and this with a DNA match of more than 90%. On the other hand, the number of SNP detected is consistent: 9.9M SNP detected for all 10 populations with an average of 1.8M SNP detected per population, of which ~0.5M with informed genotypes. Finally, 250,000 SNP with informed genotypes are common to the 10 populations studied. This list of SNP allowed a first characterization of the genetic links between these 10 populations, which is coherent with their phylogenetic background. We also analyzed the functional impact of these 9.9M SNP on transcripts and associated proteins and identified 1590 stop_gained SNP that remain to be analyzed. We have also developed a program to predict the functional impact of double or triple phased SNP within the same codon, data not yet taken into account in current programs. Although rare (concerning 0.2% of variants), we show that about 70% of the functional predictions on these double or triple phased SNP codons are erroneous.; Dans ce stage, nous avons finalisé un ensemble de programmes informatiques permettant la détection de variants mononucléotidiques (SNP) fiables à partir de données de séquençage d’ARN (RNA-seq) et les avons appliqués sur des données RNA-seq de 10 populations de poules commerciales et expérimentales de chair et de ponte. Une analyse de la concordance des variants obtenus en RNA-seq et en DNA-seq 20X (séquençage de l’ADN génomique des même tissus) a été réalisée, pour la première fois, sur les mêmes individus et de surcroît en nombre important (15 poules). Nous montrons ainsi que les données de RNA-seq sont une ressource de polymorphismes intéressante à exploiter car, à régions exprimées égales, le RNA-seq permet de détecter plus de 85% des SNP captés en DNA-seq - plus encore avec plusieurs tissus analysés - et cela avec une concordance avec l’ADN de plus de 90%. D’autre part le nombre de SNP détectés est conséquent : 9,9M de SNP détectés pour l’ensemble des 10 populations avec en moyenne 1,8M de SNP détectés par population dont ~0,5M avec des génotypes renseignés. Finalement, 250 000 SNP avec génotypes renseignés sont communs aux 10 populations étudiées. Cette liste de SNP a permis une première caractérisation des liens génétiques entre ces 10 populations, qui est cohérente avec l’histoire phylogénétique de ces dernières. Nous avons également analysé l’impact fonctionnel de ces 9,9M de SNP sur les transcrits et protéines associés et avons identifié 1590 SNP stop_gained qui nous restent à analyser. Nous avons également développé un programme permettant de prédire l’impact fonctionnel de double ou triple SNP phasés au sein d’un même codon, donnée non prise en compte encore dans les programmes actuels. Bien que rares (concernent 0,2% des variants), nous montrons qu’environ 70% des prédictions fonctionnelles sur ces codons à double ou triple SNP phasés sont erronées.

Details

Language :
French
Database :
OpenAIRE
Journal :
Sciences du Vivant [q-bio]. 2020
Accession number :
edsair.od......2592..f325ddc360cb9afc5ba36b84498f4a45