1. ABClass : Une approche d'apprentissage multi-instances pour les séquences
- Author
-
Zoghlami, Manel, Aridhi, Sabeur, Maddouri, Mondher, Nguifo, Engelbert, Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes (LIMOS), Ecole Nationale Supérieure des Mines de St Etienne-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'Informatique, Programmation, Algorithmique et Heuristique (LIPAH), Faculté des Sciences Mathématiques, Physiques et Naturelles de Tunis (FST), Université de Tunis El Manar (UTM)-Université de Tunis El Manar (UTM), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Computational Algorithms for Protein Structures and Interactions (CAPSID), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Complex Systems, Artificial Intelligence & Robotics (LORIA - AIS), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), University of Jeddah, and Ecole Nationale Supérieure des Mines de St Etienne (ENSM ST-ETIENNE)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS)
- Subjects
prédiction de la résistance aux rayonnements ionisants chez les bactéries ,[INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB] ,multiple instance learning ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,apprentissage multi-instances ,prediction of bacterial ionizing radiation resistance ,séquences protéiques ,protein sequences ,[INFO.INFO-BI]Computer Science [cs]/Bioinformatics [q-bio.QM] ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
National audience; In Multiple Instance Learning (MIL) problem for sequence data, the learning data consist of a set of bags where each bag contains a set of instances/sequences. In some real world applications such as bioinformatics comparing a random couple of sequences makes no sense. In fact, each instance of each bag may have structural and/or functional relationship with other instances in other bags. Thus, the classification task should take into account the relation between semantically related instances across bags. In this paper, we present ABClass, a novel MIL approach for sequence data classification. Each sequence is represented by one vector of attributes extracted from the set of related instances. For each sequence of the unknown bag, a discriminative classifier is applied in order to compute a partial classification result. Then, an aggregation method is applied in order to generate the final result. We applied ABClass to solve the problem of bacterial Ionizing Radiation Resistance (IRR) prediction. The experimental results were satisfactory.; Dans le cas du problème de l'apprentissage multi-instances (MI) pour les séquences, les données d'apprentissage consistent en un ensemble de sacs où chaque sac contient un ensemble d'instances/séquences. Dans certaines applications du monde réel, comme la bioinformatique, comparer un couple aléatoire de séquences n'a aucun sens. En fait, chaque instance de chaque sac peut avoir une relation structurelle et/ou fonctionnelle avec d'autres instances dans d'autres sacs. Ainsi, la tâche de classification doit prendre en compte la relation entre les instances sémantiquement liées à travers les sacs. Dans cet article, nous présentons ABClass, une nouvelle approche de classification MI des séquences. Chaque séquence est représentée par un vecteur d'attributs extraits à partir de l'en-semble des instances qui lui sont liées. Pour chaque séquence du sac à prédire, un classifieur discriminant est appliqué afin de calculer un résultat de classification partiel. Ensuite, une méthode d'agrégation est appliquée afin de générer le résultat final. Nous avons appliqué ABClass pour résoudre le problème de la prédiction de la résistance aux rayonnements ionisants (RRI) chez les bactéries. Les résultats expérimentaux sont satisfaisants.
- Published
- 2018