1. Multiple instance learning for sequence data : Application on bacterial ionizing radiation resistance prediction
- Author
-
Zoghlami, Manel, Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes (LIMOS), Ecole Nationale Supérieure des Mines de St Etienne-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), Université Clermont Auvergne [2017-2020], Université de Tunis El Manar, Engelbert Mephu-Nguifo, Amel Borgi, Ecole Nationale Supérieure des Mines de St Etienne (ENSM ST-ETIENNE)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), and STAR, ABES
- Subjects
[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Sequence data classification ,Multiple instance learning ,Apprentissage multi-instances ,Prédiction de la résistance aux rayonnements ionisants chez les bactéries ,Prediction of bacterial ionizing radiation resistance ,Classification des séquences ,[INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG] - Abstract
In Multiple Instance Learning (MIL) problem for sequence data, the instances inside the bags aresequences. In some real world applications such as bioinformatics, comparing a random couple ofsequences makes no sense. In fact, each instance may have structural and/or functional relationshipwith instances of other bags. Thus, the classification task should take into account this across bagrelationship. In this thesis, we present two novel MIL approaches for sequence data classificationnamed ABClass and ABSim. ABClass extracts motifs from related instances and use them to encodesequences. A discriminative classifier is then applied to compute a partial classification result for eachset of related sequences. ABSim uses a similarity measure to discriminate the related instances andto compute a scores matrix. For both approaches, an aggregation method is applied in order togenerate the final classification result. We applied both approaches to the problem of bacterialionizing radiation resistance prediction. The experimental results were satisfactory., Dans l’apprentissage multi-instances (MI) pour les séquences, les données d’apprentissage consistent en un ensemble de sacs où chaque sac contient un ensemble d’instances/séquences. Dans certaines applications du monde réel, comme la bioinformatique, comparer un couple aléatoire de séquences n’a aucun sens. En fait, chaque instance de chaque sac peut avoir une relation structurelle et/ou fonctionnelle avec d’autres instances dans d’autres sacs. Ainsi, la tâche de classification doit prendre en compte la relation entre les instances sémantiquement liées à travers les sacs. Dans cette thèse, nous présentons deux approches de classification MI des séquences nommées ABClass et ABSim. ABClass extrait les motifs à partir des instances reliées et les utilise pour encoder les séquences. Un classifieur discriminant est ensuite appliqué pour calculer un résultat de classification partiel pour chaque ensemble de séquences liées. ABSim utilise une mesure de similarité pour discriminer les instances reliées et calcule une matrice de scores. Pour les deux approches, une méthode d’agrégation est appliquée afin de générer le résultat final de la classification. Nous appliquons les deux approches au problème de prédiction de la résistance aux rayonnements ionisants chez les bactéries.Les résultats expérimentaux sont satisfaisants.
- Published
- 2019