Back to Search Start Over

GECKO is a genetic algorithm to classify and explore high throughput sequencing data

Authors :
Grégory Beurier
Julie Brooke
Christelle Reynes
William Ritchie
Sylvain Barriere
Robert Sabatier
Alban Mancheron
Jean-Philippe Villemin
Lucile Broseus
Aubin Thomas
Claudio Lorenzi
Institut de génétique humaine (IGH)
Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)
Amélioration génétique et adaptation des plantes méditerranéennes et tropicales (UMR AGAP)
Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)
Institut de Génomique Fonctionnelle (IGF)
Institut National de la Santé et de la Recherche Médicale (INSERM)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)
Institut de Biologie Computationnelle (IBC)
Institut National de la Recherche Agronomique (INRA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)
Méthodes et Algorithmes pour la Bioinformatique (MAB)
Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM)
Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)
French National Research Agency (ANR)
Labex EpiGenMed
MUSE initiative
Institut National de la Recherche Agronomique (INRA)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)
Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)
Université de Montpellier (UM)-Université Montpellier 1 (UM1)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université Montpellier 2 - Sciences et Techniques (UM2)-Centre National de la Recherche Scientifique (CNRS)
Université de Montpellier (UM)-Institut National de la Recherche Agronomique (INRA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)
Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)
Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)-Institut National de la Recherche Agronomique (INRA)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)
Source :
Communications Biology, Communications Biology, 2019, 2 (1), pp.1-8. ⟨10.1038/s42003-019-0456-9⟩, Communications Biology, Nature Publishing Group, 2019, 2 (1), pp.1-8. ⟨10.1038/s42003-019-0456-9⟩, Communications Biology (2), 1-8. (2019), Communications Biology, Nature Publishing Group, 2019, 2 (1), ⟨10.1038/s42003-019-0456-9⟩, Communications Biology, Vol 2, Iss 1, Pp 1-8 (2019)
Publication Year :
2019
Publisher :
HAL CCSD, 2019.

Abstract

Comparative analysis of high throughput sequencing data between multiple conditions often involves mapping of sequencing reads to a reference and downstream bioinformatics analyses. Both of these steps may introduce heavy bias and potential data loss. This is especially true in studies where patient transcriptomes or genomes may vary from their references, such as in cancer. Here we describe a novel approach and associated software that makes use of advances in genetic algorithms and feature selection to comprehensively explore massive volumes of sequencing data to classify and discover new sequences of interest without a mapping step and without intensive use of specialized bioinformatics pipelines. We demonstrate that our approach called GECKO for GEnetic Classification using k-mer Optimization is effective at classifying and extracting meaningful sequences from multiple types of sequencing approaches including mRNA, microRNA, and DNA methylome data.<br />Aubin Thomas, Sylvain Barriere et al. present a computational method for classifying and extracting meaningful sequences from high-throughput sequencing data. The method, called GECKO, uses k-mer counts that are able to classify the input data with high accuracy.

Details

Language :
English
ISSN :
23993642
Database :
OpenAIRE
Journal :
Communications Biology, Communications Biology, 2019, 2 (1), pp.1-8. ⟨10.1038/s42003-019-0456-9⟩, Communications Biology, Nature Publishing Group, 2019, 2 (1), pp.1-8. ⟨10.1038/s42003-019-0456-9⟩, Communications Biology (2), 1-8. (2019), Communications Biology, Nature Publishing Group, 2019, 2 (1), ⟨10.1038/s42003-019-0456-9⟩, Communications Biology, Vol 2, Iss 1, Pp 1-8 (2019)
Accession number :
edsair.doi.dedup.....ac9f2e2f35cec24f2cd87e931f35179e
Full Text :
https://doi.org/10.1038/s42003-019-0456-9⟩