Descriptor: "Supervised classification" / Publisher: hal ccsd - Searchworks@Jio Institute Digital Library Search Results

Your search keyword '"Supervised classification"' showing total 106 results

Start Over Descriptor "Supervised classification" Publisher hal ccsd

106 results on '"Supervised classification"'

1. Ensemble learning methods on the space of covariance matrices : application to remote sensing scene and multivariate time series classification

Author: Akodad, Sara, Laboratoire de l'intégration, du matériau au système (IMS), Centre National de la Recherche Scientifique (CNRS)-Institut Polytechnique de Bordeaux-Université Sciences et Technologies - Bordeaux 1, Université de Bordeaux, Christian Germain, and Université Sciences et Technologies - Bordeaux 1-Institut Polytechnique de Bordeaux-Centre National de la Recherche Scientifique (CNRS)
Subjects: Télédétection, Ensemble learning, Classification supervisée, [INFO.INFO-AU]Computer Science [cs]/Automatic Control Engineering, Supervised classification, Séries temporelles multivariées, Statistiques du second ordre, Méthodes d'ensembles, Remote sensing, Sentinel 1 & 2, Second-Order statistics, Multivariate time series
Abstract: In view of the growing success of second-order statistics in classification problems, the work of this thesis has been oriented towards the development of learning methods in manifolds. Indeed, covariance matrices are symmetric positive definite matrices that live in a non-Euclidean space. It is therefore necessary to adapt the classical tools of Euclidean geometry to handle this type of data. To do that, we have proposed to exploit the log-Euclidean metric. This latter allows to project the set of covariance matrices on a tangent plane to the manifold defined at a reference point, classically chosen equal to the identity matrix, followed by a vectorization step to obtain the log-Euclidean representation. On this tangent plane, it is possible to define parametric Gaussian models as well as Gaussian mixture models. Nevertheless, this projection on a single tangent plane can induce distortions. In order to overcome this limitation, we have proposed a GMM model composed of several tangent planes, where the reference points are defined by the centers of each cluster.In view of the success of neural networks, in particular convolutional neural networks (CNNs), we have proposed two hybrid transfer learning approaches based on the covariance matrix computed locally and globally on the CNN convolutional layers’ outputs. The local approach relies on the covariance matrices extracted locally on the first layers of a CNN, which are then encoded by the Fisher vectors computed on their log-Euclidean representation, while for the global approach, a single covariance matrix is computed on the feature maps of the CNN deep layers. Moreover, in order to give more importance to the objects of interest present in the images, we proposed to use a covariance matrix weighted by the saliency information. Furthermore, in order to take advantage of both local and global aspects, these two approaches are subsequently combined in an ensemble strategy.On the other hand, the availability of multivariate time series has aroused the interest of the remote sensing community and more generally of machine learning researchers for the development of new learning strategies dedicated to supervised classification. In particular, methods based on the calculation of point-to-point distance between series. Moreover, two series belonging to the same class can evolve in different ways, which can induce temporal distortions (translation, compression, dilation, etc.). To avoid this, warping methods allow to align the time series. In order to extend this approach to time series of covariance matrices, while ensuring invariance to the re-parametrization of the series, we were interested in the TSRVF representation. In the same context, several ensemble methods have been proposed in the literature, including TCK, which relies on similarity computation to classify time series. We have proposed to extend this strategy to covariance matrices by introducing the SO-TCK approach which relies on the log-Euclidean representation of such matrices.Finally, the last axis of this thesis concerns the modeling of temporal trajectories of signals measured by the radar (Sentinel 1) and optical (Sentinel 2) sensors. In particular, we are interested in the forestry problem of the chestnut ink disease in the Montmorency forest. For this purpose, we developed classification and regression models to predict a health status score from the covariance matrix computed on multi-temporal radiometric attributes.; Devant le succès grandissant des statistiques du second ordre dans les problèmes de classification, les travaux de cette thèse se sont orientés vers le développement de méthodes d’apprentissage sur variétés. En effet, les matrices de covariance sont des matrices symétriques définies positives qui vivent dans un espace non Euclidien. Il est donc nécessaire de réadapter les outils classiques de la géométrie Euclidienne pour manipuler ce type de données. Pour ce faire, nous avons proposé d’exploiter la métrique log-Euclidienne. Celle-ci permet de projeter l’ensemble des matrices de covariance sur un plan tangent à la variété défini à un point de référence, classiquement choisi égal à la matrice identité, suivi d’une étape de vectorisation pour obtenir la représentation log-Euclidienne. Sur ce plan tangent, il est possible de définir des modèles paramétriques Gaussien ainsi que des modèles de mélange de Gaussiennes. Néanmoins, cette projection sur un unique plan tangent peut induire des distorsions. Afin de limiter cela, nous avons proposé un modèle de GMM composé de plusieurs plans tangents, où les points de référence sont définis par les centres de chaque cluster.Au vu de la réussite remportée par les réseaux de neurones, en particulier les réseaux de neurones convolutifs (CNN), nous avons proposé deux approches hybrides d’apprentissage par transfert basées sur la matrice de covariance calculée de façon locale et globale sur les sorties des couches convolutives d’un CNN. D’une part, l’approche locale s’appuie sur les matrices de covariance extraites localement sur les premières couches d’un CNN, qui sont ensuite encodées par les vecteurs de Fisher calculés sur leur représentation log-Euclidienne. Tandis que pour l’approche globale, une seule matrice de covariance est calculée sur les cartes de caractéristiques des couches profondes d’un CNN. De plus, afin de donner une plus grande importance aux objets d’intérêt présents dans les images, nous avons proposé d’utiliser une matrice de covariance pondérée par l’information de saillance. Par ailleurs, afin de tirer profit des aspects local et global, ces deux approches sont par la suite combinées dans une stratégie d’ensemble.D'autre part, la disponibilité des séries temporelles multivariées a suscité l’intérêt de la communauté de la télédétection et plus généralement du machine learning pour l’élaboration de nouvelles stratégies d'apprentissage pour la classification supervisée, notamment les méthodes basées sur le calcul de distance point à point entre les séries. Par ailleurs, deux séries appartenant à la même classe peuvent évoluer de façons différentes, ce qui peut induire des distorsions temporelles (translation, compression, dilatation, etc.). Pour s’affranchir de cela, le « warping » permet d’aligner les séries temporelles. Afin d’étendre cette approche pour des séries temporelles de matrices de covariance, tout en assurant l’invariance à la reparamétrisation des séries, nous nous sommes intéressés à la représentation TSRVF. Dans le même contexte, plusieurs méthodes d’ensemble ont été proposées dans la littérature, notamment le TCK, qui repose sur le calcul de similarité afin de classifier les séries temporelles. Nous avons proposé d’étendre cette stratégie aux matrices de covariance en introduisant l’approche SO-TCK qui s’appuie sur la représentation log-Euclidienne de ces matrices.Finalement, le dernier axe de cette thèse concerne la modélisation de trajectoires temporelles des signaux mesurés par les capteurs radar (Sentinel 1) et optique (Sentinel 2). En particulier, nous nous sommes intéressés au problème sylvosanitaire de la maladie de l’encre du châtaignier sur la forêt de Montmorency. Pour cela, nous avons développé des modèles de classification et de régression afin de prédire une note d’état sanitaire à partir de la matrice de covariance calculée sur les attributs radiométriques multitemporels.
Published: 2021

2. A repeatable change detection approach to map extreme storm-related damages caused by intense surface runoff based on optical and SAR remote sensing: Evidence from three case studies in the South of France

Author: Cerbelaud, Arnaud, Roupioz, Laure, Blanchet, Gwendoline, Breil, Pascal, Briottet, Xavier, ONERA / DOTA, Université de Toulouse [Toulouse], ONERA-PRES Université de Toulouse, Centre National d'Études Spatiales [Toulouse] (CNES), Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), and This work was supported by DGPR/SRNH grant n°21367400 for the 2021 field campaign to the Royal and Vésubie valleys following the 'Alex' storm.
Subjects: [PHYS]Physics [physics], [SPI]Engineering Sciences [physics], Supervised classification, Sentinel-1, Change detection, Flood damage, Sentinel-2, Intense rainwater runoff
Abstract: International audience; Most flood hazards are induced either by river overflowing or intense overland flow following heavy rainfall, causing land surface damages under many forms. Until now, fine-scale detection of damages caused by intense rainwater runoff beyond the direct vicinity of major waterways has been scarcely explored using satellite remote sensing. In this work, three extreme storms in the Aude and Alpes-Maritimes departments in the South of France were investigated based on ground truths and very high resolution optical imagery (Pléiades satellite, IGN orthophotos). Plot delineation and land use information were combined to high revisit frequency and high resolution optical (Sentinel-2) and SAR (Sentinel-1) open-source data to test a simple automatic and replicable change detection method to locate damaged plots using supervised classification. Based on a unique training sample from the Aude floods of October 2018, combinations of plot-based spectral indicators allowed reaching overall detection accuracies greater than 85% on independent validation samples for all three events. A simple land use inter-class demeaning pre-processing used to account for land-specific seasonal variations improved event and site repeatability by lowering false detection rates down to a maximum of 13%. The benefits of introducing SWIR channel in addition to visible and near-infrared indices were limited to a few percentage points. SAR-derived proxies of soil moisture and roughness in weakly vegetated areas were consistent with the presence of degradations, with VV being the most sensitive polarization. However, classification accuracy was not significantly increased with Sentinel-1 data as compared to the exclusive use of Sentinel-2. Additional tests revealed that should the closest available optical images be rather distant in time because of persistent cloud cover, the method is reasonably robust as long as stable ground conditions were observed before the event. The need for images close in time was however emphasized through cross-site training. Indeed, efficient replicability from one site to another relied on using unaffected learning plots with slightly more inherent variability in time variations of spectral indices compared to the test site. Beyond the investigation of three case studies, this work demonstrates the performance and repeatability potential of a new probabilistic change detection method to expose various kinds of extreme rainfall-related disturbances, in particular those occurring far from the main hydrographic network. Should spatially accurate rainfall products be available, comprehensive mapping of intense stormwater runoff hazards using this original plot-based approach will then allow improving the understanding of overland flow generation mechanisms in hydrological models.
Published: 2021

3. Analyse multimodale d'interaction humaine dans le cockpit d'un véhicule

Author: Portes, Quentin, Pinquier, Julien, Lerasle, Frédéric, Mendes-Carlalho, Jose, Renault Software Lab, Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio (IRIT-SAMoVA), Institut de recherche en informatique de Toulouse (IRIT), Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées, Équipe Robotique, Action et Perception (LAAS-RAP), Laboratoire d'analyse et d'architecture des systèmes (LAAS), Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse 1 Capitole (UT1), Centre National de la Recherche Scientifique [CNRS], Equipe REVA, IRIT : Institut de Recherche en Informatique de Toulouse, Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT)-Université de Toulouse (UT)-Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Toulouse Mind & Brain Institut (TMBI), Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J), and Sciencesconf.org, CCSD
Subjects: supervised classification, [INFO.INFO-CV] Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV], classification supervisée, multimodal neural network, Réseau de neurones multimodaux, [INFO.INFO-CV]Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV], [INFO]Computer Science [cs], [INFO] Computer Science [cs], application automobile, sensordata fusion, automotive application, fusion de données
Abstract: Nowadays, every car maker is thinking about the future of mobility. Electric vehicles, autonomous vehicles and sharing vehicles are the most promising opportunities. The lack of control authority in autonomous and sharing vehicles raises different issues like the passenger safety. To ensure it, new systems able to understand interactions and possible conflicts between passengers have to be designed. They should be able to predict and trigger with high accuracy, an alert to a remote controller before a critical situation happens in the cockpit. In order to better understand the features of these insecure situations, we recorded an audio-video dataset in real vehicle context. Twenty-two participants playing three different scenarios ("curious","argued refusal" and "not argued refusal") of interactionsbetween a driver and a passenger were recorded. We propose a deep learning approach which achieves a balanced accuracy of 81%. Practically, we highlight that combining multimodality, namely video, audio and text as well as temporality are the keys to perform such accurate predictions in scenario recognition., Aujourd'hui, les constructeurs automobiles se concentrent sur l'avenir de la mobilité. Les véhicules électriques, les véhicules autonomes et les véhicules partagés sont les opportunités les plus prometteuses.Le manque d'autorité dans les véhicules partagés soulève différents problèmes comme la sécurité des passagers. Pour garantir cette dernière, il faut concevoir de nouveaux systèmes capables de comprendre les interactions et les conflits éventuels entre les passagers, avant qu'une situation critique ne se produise dans le cockpit.Afin de mieux comprendre les caractéristiques de ces situations d'insécurité, nous avons enregistré un corpus audio-vidéo dans un contexte de véhicule réel. Vingt-deux participants jouant trois différents scénarios (« curieux », « refus argumenté » et « refus non argumenté ») d'interactions entre un conducteur et un passager ont été enregistrés.Notre approche, basée sur de l'apprentissage profond, atteint une précision de 81%. Nous démontrons que la combinaison des modalités vidéo/audio/texte et la temporalité permettent d'améliorer les prédictions de reconnaissance de scénarios in situ.
Published: 2021

4. Supervised classification methods for automatic damage detection caused by heavy rainfall using multitemporal high resolution optical imagery and auxiliary data

Author: A. Cerbelaud, L. Roupioz, G. Blanchet, P. Breil, X. Briottet, ONERA / DOTA, Université de Toulouse [Toulouse], ONERA-PRES Université de Toulouse, Centre National d'Études Spatiales [Toulouse] (CNES), Riverly (Riverly), and Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)
Subjects: Technology, 010504 meteorology & atmospheric sciences, Climate change, Context (language use), Land cover, 010501 environmental sciences, 01 natural sciences, Rainwater harvesting, [SPI]Engineering Sciences [physics], Vegetation index, Détection de changement, Optical remote sensing, Applied optics. Photonics, Rainwater runoff, Digital elevation model, Indice de végétation, 0105 earth and related environmental sciences, Remote sensing, [PHYS]Physics [physics], Land use, Dommage environnemental, Télédétection optique, 15. Life on land, Engineering (General). Civil engineering (General), Ruissellement des eaux pluviales, 6. Clean water, TA1501-1820, Water resources, Damage, 13. Climate action, Classification supervisée, Supervised classification, Environmental science, Change detection, TA1-2040
Abstract: International audience; In the context of climate change and rising frequency of extreme hydro-meteorological events around the world, flood risk management and mapping of heavy rainfall-related damages represent an ongoing critical challenge. For decades now, remote sensing has been largely used to investigate spatial and temporal changes in land use and water resources. Today, different satellite products provide fast and crucial knowledge for the study of hydrological disasters over large areas, possibly in remote regions, with high spatial resolution and high revisit frequency. Yet, until now, few works have sought to detect the full range of extreme rainfall-related damages with optical imagery, especially those caused by intense rainwater runoff beyond the direct vicinity of major waterways. The work presented in this paper focuses on the Aude severe weather event of October 15th, 2018, in the South of France, for which more than a thousand claims for agricultural disaster were registered, both related to river overflowing and rainwater runoff. The full resources of ground truths, contextual information, land use as well as digital elevation model (DEM) combined to high resolution and high frequency optical imagery (Sentinel-2, Pléiades) are used to develop an automatic damage detection method based on supervised classification algorithms. Through the combination of several indicators characterizing heterogeneous spectral variations among agricultural plots following the event, a Gaussian process classifier achieved various classification accuracies up to 90% on a large comparable and independent photo-interpreted validation sample. This work builds great expectations for applications in other areas with contrasted climate, topography and land cover.; Dans le contexte du changement climatique et de la fréquence croissante des événements hydrométéorologiques extrêmes dans le monde, la gestion des risques d'inondation et la cartographie des dommages liés aux fortes pluies représentent un défi critique permanent. Depuis des décennies, la télédétection a été largement utilisée pour étudier les changements spatiaux et temporels de l'utilisation des terres et des ressources en eau. Aujourd'hui, différents produits satellitaires fournissent des connaissances rapides et cruciales pour l'étude des catastrophes hydrologiques sur de vastes zones, éventuellement dans des régions éloignées, avec une résolution spatiale élevée et une fréquence de revisite élevée. Pourtant, jusqu'à présent, peu de travaux ont cherché à détecter la gamme complète des dommages liés aux pluies extrêmes par imagerie optique, en particulier ceux causés par un ruissellement intense des eaux de pluie au-delà du voisinage direct des principaux cours d'eau. Les travaux présentés dans cet article se concentrent sur l'épisode de temps violent de l'Aude du 15 octobre 2018, dans le sud de la France, pour lequel plus d'un millier de sinistres agricoles ont été enregistrés, tous deux liés au débordement des rivières et au ruissellement des eaux de pluie.L'ensemble des ressources de vérités de terrain, d'informations contextuelles, d'occupation des sols ainsi que du modèle numérique d'élévation (DEM) combiné à l'imagerie optique haute résolution et haute fréquence (Sentinel-2, Pléiades) sont utilisés pour développer une méthode de détection automatique des dommages basée sur une classification supervisée. algorithmes. Grâce à la combinaison de plusieurs indicateurs caractérisant les variations spectrales hétérogènes entre les parcelles agricoles à la suite de l'événement, un classificateur de processus gaussien a obtenu diverses précisions de classification allant jusqu'à 90% sur un grand échantillon de validation photo-interprété comparable et indépendant. Ce travail suscite de grandes attentes pour des applications dans d'autres domaines au climat, à la topographie et à la couverture du sol contrasté.
Published: 2021

5. Distributionally robust, skeptical inferences in supervised classification using imprecise probabilities

Author: Carranza Alarcón, Yonatan Carlos, Heuristique et Diagnostic des Systèmes Complexes [Compiègne] (Heudiasyc), Université de Technologie de Compiègne (UTC)-Centre National de la Recherche Scientifique (CNRS), Université de Technologie de Compiègne, and Sébastien Destercke
Subjects: Classification multi-classes, Probabilités imprécises, Imprecise probabilities, Uncertainty, Multi-label classification, Discriminant analysis, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], [MATH.MATH-PR]Mathematics [math]/Probability [math.PR], Multiclass classification, Supervised classification, Incertitude, Classification multi-étiquettes, Decision making, Supervised learning, Algorithms
Abstract: Decision makers are often faced with making single hard decisions, without having any knowledge of the amount of uncertainties contained in them, and taking the risk of making damaging, if not dramatic, mistakes. In such situations, where the uncertainty is higher due to imperfect information, it may be useful to provide set-valued but more reliable decisions. This works thus focuses on making distributionally robust, skeptical inferences (or decisions) in supervised classification problems using imprecise probabilities. By distributionally robust, we mean that we consider a set of possible probability distributions, i.e. imprecise probabilities, and by skeptical we understand that we consider as valid only those inferences that are true for every distribution within this set. Specifically, we focus on extending the Gaussian discriminant analysis and multilabel classification approaches to the imprecise probabilistic setting. Regarding to Gaussian discriminant analysis, we extend it by proposing a new imprecise classifier, considering the imprecision as part of its basic axioms, based on robust Bayesian analysis and near-ignorance priors. By including an imprecise component in the model, our proposal highlights those hard instances on which the precise model makes mistakes in order to provide cautious decisions in the form of set-valued class, instead. Regarding to multi-label classification, we first focus on reducing the time complexity of making a cautious decision over its output space of exponential size by providing theoretical justifications and efficient algorithms applied to the Hamming loss. Relaxing the assumption of independence on labels, we obtain partial decisions, i.e. not classifying at all over some labels, which generalize the binary relevance approach by using imprecise marginal distributions. Secondly, we extend the classifierchains approach by proposing two different strategies to handle imprecise probabilityestimates, and a new dynamic, context-dependent label ordering which dynamically selects the labels with low uncertainty as the chain moves forwards.; Les décideurs sont souvent confrontés au défi de prendre des décisions précises, sans avoir aucune connaissance de la quantité d’incertitudes que celles-ci peuvent contenir, et en prenant le risque de commettre des erreurs dommageables, voire dramatiques. Dans de telles situations, où l’incertitude est plus élevée due à des informations imparfaites, il peut être plutôt utile de fournir des décisions prudentes, sous la forme d’un ensemble de solutions possibles, plus fiables. Ce travail se concentre donc sur la prise de décisions (ou inférences) sceptiques (ou prudentes) et robustes dans des problèmes de classification supervisée en utilisant des probabilités imprécises. Par robuste, nous voulons dire que nous considérons un ensemble des distributions de probabilités possibles, c'est-à-dire des probabilités imprécises, et par sceptique, nous voulons dire que nous ne considérons comme valides que les décisions étant vraies pour chaque distribution dans cet ensemble. Plus précisément, nous nous concentrons sur l'extension d’approches basée sur l'analyse discriminante gaussienne et la classification multi-étiquettes au cadre probabiliste imprécis. Concernant l'analyse discriminante gaussienne, nous proposons un nouveau classifieur imprécis qui généralise celui-ci et qui est basé sur l’inférence bayésienne robuste et un ensemble des lois de probabilités a priori. L’inclusion d’un composant imprécis dans notre approche met en évidence les décisions difficiles à prendre (c.-à-d. les observations difficiles à classifier), sur lesquelles les modèles précis font des erreurs, et permet de fournir à la place des décisions prudentes. Concernant la classification multi-étiquettes, nous nous concentrons d’abord sur la réduction de la complexité calculatoire de prendre une décision prudente sur son espace de sortie combinatoire. Pour cela, nous fournissons des justifications théoriques et des algorithmes efficaces appliqués à la fonction de coût Hamming. En outre, en relâchant l’hypothèse d’indépendance sur les étiquettes, on obtient de décisions partielles (c.-à-d. ne pas décider sur certaines étiquettes), qui généralisent l’approche classique précise (nommé « binary relevance ») en utilisant des distributions marginales imprécises. D’autre part, nous proposons aussi d’étendre le chaînage multi-étiquette classique au cadre probabiliste imprécis en fournissant deux stratégies différentes pour gérer les estimations imprécises sous la forme d’intervalles, et une nouvelle procédure d’ordre des étiquettes qui dépend des incertitudes associées aux étiquettes sélectionnées au fur et à mesure que la chaîne avance.
Published: 2020

6. A machine learning approach for image retrieval tasks

Author: Achref Ouni, Institut Pascal (IP), SIGMA Clermont (SIGMA Clermont)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), and Royer, Eric
Subjects: supervised classification, Computer science, 0211 other engineering and technologies, ComputingMethodologies_IMAGEPROCESSINGANDCOMPUTERVISION, 02 engineering and technology, Machine learning, computer.software_genre, k-nearest neighbors algorithm, Image (mathematics), descriptors, [INFO.INFO-CV] Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV], 0202 electrical engineering, electronic engineering, information engineering, Image retrieval, 021101 geological & geomatics engineering, bag of visualphrases, business.industry, bag of visual words, [INFO.INFO-CV]Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV], ANNs, Signature (logic), ComputingMethodologies_PATTERNRECOGNITION, Bag-of-words model in computer vision, 020201 artificial intelligence & image processing, Artificial intelligence, business, computer, Visual methods
Abstract: International audience; Several methods based on visual methods (BoVW, VLAD, ...) or recent deep leaning methods try to solve the CBIR problem. Bag of visual words (BoVW) is one of most module used for both classification and image recognition. But, even with the high performance of BoVW, the problem of retrieving the image by content is still a challenge in computer vision. In this paper, we propose an improvement on a bag of visual words by increasing the accuracy of the retrieved candidates. In addition, we reduce the signature construction time by exploiting the powerful of the approximate nearest neighbor algorithms (ANNs). Experimental results will be applied to widely data sets (UKB, Wang, Corel 10K) and with different descriptors (CMI, SURF).
Published: 2020

7. A Behavioral Pattern Mining Approach to Model Player Skills in Rocket League

Author: Mehdi Kaytoue, Romain Mathonat, Jean-François Boulicaut, Data Mining and Machine Learning (DM2L), Laboratoire d'InfoRmatique en Image et Systèmes d'information (LIRIS), Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-École Centrale de Lyon (ECL), Université de Lyon-Université Lumière - Lyon 2 (UL2)-Institut National des Sciences Appliquées de Lyon (INSA Lyon), and Université de Lyon-Université Lumière - Lyon 2 (UL2)
Subjects: Rocket (weapon), Esports, Point (typography), [INFO.INFO-GT]Computer Science [cs]/Computer Science and Game Theory [cs.GT], Computer science, business.industry, Supervised learning, ComputingMilieux_PERSONALCOMPUTING, Behavioral pattern, 02 engineering and technology, League, Supervised Classification, Pure Data, Pattern mining, 020204 information systems, 0202 electrical engineering, electronic engineering, information engineering, Index Terms-Rocket League, 020201 artificial intelligence & image processing, Artificial intelligence, Pattern matching, Set (psychology), business, computer, Analytics and Player Modelling, computer.programming_language
Abstract: International audience; Competitive gaming, or esports, is now well-established and brought the game industry in a novel era. It comes with many challenges among which evaluating the level of a player, given the strategies and skills she masters. We are interested in automatically identifying the so called skillshots from game traces of Rocket League, a "soccer with rocket-powered cars" game. From a pure data point of view, each skill execution is unique and standard pattern matching may be insufficient. We propose a non trivial data-centric approach based on pattern mining and supervised learning techniques. We show through an extensive set of experiments that most of Rocket League skillshots can be efficiently detected and used for player modelling. It unveils applications for match making, supporting game commentators and learning systems among others.
Published: 2020

8. Feature extraction and ageing state recognition using partial discharges in cables under HVDC

Author: Yacine Oussar, Thierry Ditchi, Nathalie Morette, Laboratoire de Physique et d'Etude des Matériaux (UMR 8213) (LPEM), Ecole Superieure de Physique et de Chimie Industrielles de la Ville de Paris (ESPCI Paris), and Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)
Subjects: supervised classification, Coaxial cable, Computer science, 020209 energy, Feature extraction, polymeric-insulated cable, ageing state, Energy Engineering and Power Technology, Feature selection, 02 engineering and technology, wavelet decomposition, insulator, support vector machines, law.invention, feature selection, law, 0202 electrical engineering, electronic engineering, information engineering, Time domain, Electrical and Electronic Engineering, Oscilloscope, partial discharges, [PHYS]Physics [physics], HVDC, business.industry, feature extraction, 020208 electrical & electronic engineering, Experimental data, Pattern recognition, Support vector machine, Direct coupling, Artificial intelligence, business
Abstract: International audience; PD detection is an effective way to evaluate the degradation state of cable insulation. The extraction and selection of relevant features from PD raw data have been mostly investigated to recognize the types of insulation defects in HV equipment. In this study, two different feature extraction methods combined with supervised classification techniques are implemented for ageing state recognition of a polyethylene-insulated cable under HVDC conditions. For this purpose, an original experimental setup is implemented. Experiments are performed on a long length 100 m coaxial cable subjected to high electric fields. PD events are detected by direct coupling and collected with a digitizing oscilloscope. Feature extraction based on PD pulse shape parameters represented in time domain as well as wavelet decomposition coefficients are used separately as input variables of Support Vector Machines classifiers (SVMs). A feature selection method is implemented to design optimized SVM classifiers that attribute an ageing state to the cable insulation. The classification performance achieved with both feature extraction methods are presented and compared. The results show satisfactory recognition rates of two ageing states of cable insulation, up to 100% with a small subset of variables, particularly when features are extracted from wavelet decomposition of PD experimental data.
Published: 2020

9. La prise de décisions prudentes et robustes pour les problèmes de classification supervisée en utilisant des probabilités imprécises

Author: Carranza Alarcón, Yonatan Carlos, STAR, ABES, Heuristique et Diagnostic des Systèmes Complexes [Compiègne] (Heudiasyc), Université de Technologie de Compiègne (UTC)-Centre National de la Recherche Scientifique (CNRS), Université de Technologie de Compiègne, and Sébastien Destercke
Subjects: Classification multi-classes, [INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI], [MATH.MATH-PR] Mathematics [math]/Probability [math.PR], Probabilités imprécises, Imprecise probabilities, Uncertainty, Multi-label classification, Discriminant analysis, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], [MATH.MATH-PR]Mathematics [math]/Probability [math.PR], Multiclass classification, Supervised classification, Incertitude, Classification multi-étiquettes, Decision making, Supervised learning, Algorithms
Abstract: Decision makers are often faced with making single hard decisions, without having any knowledge of the amount of uncertainties contained in them, and taking the risk of making damaging, if not dramatic, mistakes. In such situations, where the uncertainty is higher due to imperfect information, it may be useful to provide set-valued but more reliable decisions. This works thus focuses on making distributionally robust, skeptical inferences (or decisions) in supervised classification problems using imprecise probabilities. By distributionally robust, we mean that we consider a set of possible probability distributions, i.e. imprecise probabilities, and by skeptical we understand that we consider as valid only those inferences that are true for every distribution within this set. Specifically, we focus on extending the Gaussian discriminant analysis and multilabel classification approaches to the imprecise probabilistic setting. Regarding to Gaussian discriminant analysis, we extend it by proposing a new imprecise classifier, considering the imprecision as part of its basic axioms, based on robust Bayesian analysis and near-ignorance priors. By including an imprecise component in the model, our proposal highlights those hard instances on which the precise model makes mistakes in order to provide cautious decisions in the form of set-valued class, instead. Regarding to multi-label classification, we first focus on reducing the time complexity of making a cautious decision over its output space of exponential size by providing theoretical justifications and efficient algorithms applied to the Hamming loss. Relaxing the assumption of independence on labels, we obtain partial decisions, i.e. not classifying at all over some labels, which generalize the binary relevance approach by using imprecise marginal distributions. Secondly, we extend the classifierchains approach by proposing two different strategies to handle imprecise probabilityestimates, and a new dynamic, context-dependent label ordering which dynamically selects the labels with low uncertainty as the chain moves forwards., Les décideurs sont souvent confrontés au défi de prendre des décisions précises, sans avoir aucune connaissance de la quantité d’incertitudes que celles-ci peuvent contenir, et en prenant le risque de commettre des erreurs dommageables, voire dramatiques. Dans de telles situations, où l’incertitude est plus élevée due à des informations imparfaites, il peut être plutôt utile de fournir des décisions prudentes, sous la forme d’un ensemble de solutions possibles, plus fiables. Ce travail se concentre donc sur la prise de décisions (ou inférences) sceptiques (ou prudentes) et robustes dans des problèmes de classification supervisée en utilisant des probabilités imprécises. Par robuste, nous voulons dire que nous considérons un ensemble des distributions de probabilités possibles, c'est-à-dire des probabilités imprécises, et par sceptique, nous voulons dire que nous ne considérons comme valides que les décisions étant vraies pour chaque distribution dans cet ensemble. Plus précisément, nous nous concentrons sur l'extension d’approches basée sur l'analyse discriminante gaussienne et la classification multi-étiquettes au cadre probabiliste imprécis. Concernant l'analyse discriminante gaussienne, nous proposons un nouveau classifieur imprécis qui généralise celui-ci et qui est basé sur l’inférence bayésienne robuste et un ensemble des lois de probabilités a priori. L’inclusion d’un composant imprécis dans notre approche met en évidence les décisions difficiles à prendre (c.-à-d. les observations difficiles à classifier), sur lesquelles les modèles précis font des erreurs, et permet de fournir à la place des décisions prudentes. Concernant la classification multi-étiquettes, nous nous concentrons d’abord sur la réduction de la complexité calculatoire de prendre une décision prudente sur son espace de sortie combinatoire. Pour cela, nous fournissons des justifications théoriques et des algorithmes efficaces appliqués à la fonction de coût Hamming. En outre, en relâchant l’hypothèse d’indépendance sur les étiquettes, on obtient de décisions partielles (c.-à-d. ne pas décider sur certaines étiquettes), qui généralisent l’approche classique précise (nommé « binary relevance ») en utilisant des distributions marginales imprécises. D’autre part, nous proposons aussi d’étendre le chaînage multi-étiquette classique au cadre probabiliste imprécis en fournissant deux stratégies différentes pour gérer les estimations imprécises sous la forme d’intervalles, et une nouvelle procédure d’ordre des étiquettes qui dépend des incertitudes associées aux étiquettes sélectionnées au fur et à mesure que la chaîne avance.
Published: 2020

10. Contextual classification of large volumes of satellite imagery for the production of land cover maps over wide areas

Author: Derksen, Dawa, Centre d'études spatiales de la biosphère (CESBIO), Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche pour le Développement (IRD)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Institut national des sciences de l'Univers (INSU - CNRS)-Observatoire Midi-Pyrénées (OMP), Météo France-Centre National d'Études Spatiales [Toulouse] (CNES)-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche pour le Développement (IRD)-Météo France-Centre National d'Études Spatiales [Toulouse] (CNES)-Centre National de la Recherche Scientifique (CNRS), Université Paul Sabatier - Toulouse III, and Jordi Inglada
Subjects: Machine Learning, Time series, Image processing, Traitement d'images, Télédétection, Classification supervisée, [INFO.INFO-TI]Computer Science [cs]/Image Processing [eess.IV], Séries temporelles, Supervised classification, Occupation des sols, Apprentissage automatique, Remote sensing, Land cover mapping
Abstract: This work studies the application of supervised classification for the production of land cover maps using time series of satellite images at high spatial, spectral, and temporal resolutions. On this problem, certain classes such as urban cover, depend more on the context of the pixel than its content. The issue of this Ph.D. work is therefore to take into account the neighborhood of the pixel, to improve the recognition rates of these classes. This research first leads to question the definition of the context, and to imagine different possible shapes for it. Then comes describing the context, that is to say to create a representation or a model that allows the target classes to be recognized. The combinations of these two aspects are evaluated on two experimental data sets, one on Sentinel-2 images, and the other on SPOT-7 images.; Ce travail étudie l'application de la classification supervisée pour la production de cartes d'occupation des sols à partir de séries temporelles d'images satellitaires à haute résolution spatiale, spectrale, et temporelle. Sur ce problème, certaines classes, par exemple, les classes urbaines, dépendent plus du contexte des pixels que de leur contenu. L'enjeu de la thèse est la prise en compte du voisinage du pixel, pour améliorer la précision de ces classes. Cette recherche nous mène dans un premier temps à questionner la définition du voisinage, et à imaginer différentes formes. Ensuite, il s'agit de décrire le voisinage, c'est à dire de créer une représentation ou un modèle qui permette de reconnaître les classes ciblées. Les combinaisons de ces deux aspects sont évaluées sur deux jeux de données expérimentales, un sur de l'imagerie Sentinel-2, et un sur une image SPOT-7.
Published: 2019

11. Classification contextuelle de gros volumes de données d'imagerie satellitaire pour la production de cartes d'occupation des sols sur de grandes étendues

Author: Derksen, Dawa, Centre d'études spatiales de la biosphère (CESBIO), Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche pour le Développement (IRD)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Institut national des sciences de l'Univers (INSU - CNRS)-Observatoire Midi-Pyrénées (OMP), Météo France-Centre National d'Études Spatiales [Toulouse] (CNES)-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche pour le Développement (IRD)-Météo France-Centre National d'Études Spatiales [Toulouse] (CNES)-Centre National de la Recherche Scientifique (CNRS), Université Paul Sabatier - Toulouse III, Jordi Inglada, Institut de Recherche pour le Développement (IRD)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut national des sciences de l'Univers (INSU - CNRS)-Observatoire Midi-Pyrénées (OMP), and Université de Toulouse (UT)-Université de Toulouse (UT)-Institut national des sciences de l'Univers (INSU - CNRS)-Centre National d'Études Spatiales [Toulouse] (CNES)-Centre National de la Recherche Scientifique (CNRS)-Météo-France -Institut national des sciences de l'Univers (INSU - CNRS)-Centre National d'Études Spatiales [Toulouse] (CNES)-Centre National de la Recherche Scientifique (CNRS)-Météo-France -Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)
Subjects: Machine Learning, Time series, Image processing, Traitement d'images, Télédétection, Classification supervisée, [INFO.INFO-TI]Computer Science [cs]/Image Processing [eess.IV], Séries temporelles, Supervised classification, Occupation des sols, Apprentissage automatique, Remote sensing, Land cover mapping
Abstract: This work studies the application of supervised classification for the production of land cover maps using time series of satellite images at high spatial, spectral, and temporal resolutions. On this problem, certain classes such as urban cover, depend more on the context of the pixel than its content. The issue of this Ph.D. work is therefore to take into account the neighborhood of the pixel, to improve the recognition rates of these classes. This research first leads to question the definition of the context, and to imagine different possible shapes for it. Then comes describing the context, that is to say to create a representation or a model that allows the target classes to be recognized. The combinations of these two aspects are evaluated on two experimental data sets, one on Sentinel-2 images, and the other on SPOT-7 images.; Ce travail étudie l'application de la classification supervisée pour la production de cartes d'occupation des sols à partir de séries temporelles d'images satellitaires à haute résolution spatiale, spectrale, et temporelle. Sur ce problème, certaines classes, par exemple, les classes urbaines, dépendent plus du contexte des pixels que de leur contenu. L'enjeu de la thèse est la prise en compte du voisinage du pixel, pour améliorer la précision de ces classes. Cette recherche nous mène dans un premier temps à questionner la définition du voisinage, et à imaginer différentes formes. Ensuite, il s'agit de décrire le voisinage, c'est à dire de créer une représentation ou un modèle qui permette de reconnaître les classes ciblées. Les combinaisons de ces deux aspects sont évaluées sur deux jeux de données expérimentales, un sur de l'imagerie Sentinel-2, et un sur une image SPOT-7.
Published: 2019

12. Méthodes de type plug-in en classification

Author: Chzhen, Evgenii, Laboratoire d'Analyse et de Mathématiques Appliquées (LAMA), Centre National de la Recherche Scientifique (CNRS)-Université Paris-Est Créteil Val-de-Marne - Paris 12 (UPEC UP12)-Fédération de Recherche Bézout-Université Paris-Est Marne-la-Vallée (UPEM), Université Paris-Est, Florence Merlevède, Joseph Salmon, Université Paris-Est Marne-la-Vallée (UPEM)-Fédération de Recherche Bézout-Université Paris-Est Créteil Val-de-Marne - Paris 12 (UPEC UP12)-Centre National de la Recherche Scientifique (CNRS), and Florence Merlevede
Subjects: Constrained classification, Classification contrainte, Classification semi-Supervisée, Classification supervisée, Classification par plug-In, Supervised classification, [MATH.MATH-OC]Mathematics [math]/Optimization and Control [math.OC], Confidence sets, Ensembles de confiance, Minimax analysis, Plug-In classification, Analyse minimax, Semi-Supervised classification
Abstract: This manuscript studies several problems of constrained classification. In this frameworks of classification our goal is to construct an algorithm which performs as good as the best classifier that obeys some desired property. Plug-in type classifiers are well suited to achieve this goal. Interestingly, it is shown that in several setups these classifiers can leverage unlabeled data, that is, they are constructed in a semi-supervised manner.Chapter 2 describes two particular settings of binary classification -- classification with F-score and classification of equal opportunity. For both problems semi-supervised procedures are proposed and their theoretical properties are established. In the case of the F-score, the proposed procedure is shown to be optimal in minimax sense over a standard non-parametric class of distributions. In the case of the classification of equal opportunity the proposed algorithm is shown to be consistent in terms of the misclassification risk and its asymptotic fairness is established. Moreover, for this problem, the proposed procedure outperforms state-of-the-art algorithms in the field.Chapter 3 describes the setup of confidence set multi-class classification. Again, a semi-supervised procedure is proposed and its nearly minimax optimality is established. It is additionally shown that no supervised algorithm can achieve a so-called fast rate of convergence. In contrast, the proposed semi-supervised procedure can achieve fast rates provided that the size of the unlabeled data is sufficiently large.Chapter 4 describes a setup of multi-label classification where one aims at minimizing false negative error subject to almost sure type constraints. In this part two specific constraints are considered -- sparse predictions and predictions with the control over false negative errors. For the former, a supervised algorithm is provided and it is shown that this algorithm can achieve fast rates of convergence. For the later, it is shown that extra assumptions are necessary in order to obtain theoretical guarantees in this case; Ce manuscrit étudie plusieurs problèmes de classification sous contraintes. Dans ce cadre de classification, notre objectif est de construire un algorithme qui a des performances aussi bonnes que la meilleure règle de classification ayant une propriété souhaitée. Fait intéressant, les méthodes de classification de type plug-in sont bien appropriées à cet effet. De plus, il est montré que, dans plusieurs configurations, ces règles de classification peuvent exploiter des données non étiquetées, c'est-à-dire qu'elles sont construites de manière semi-supervisée. Le Chapitre 1 décrit deux cas particuliers de la classification binaire - la classification où la mesure de performance est reliée au F-score, et la classification équitable. A ces deux problèmes, des procédures semi-supervisées sont proposées. En particulier, dans le cas du F-score, il s'avère que cette méthode est optimale au sens minimax sur une classe usuelle de distributions non-paramétriques. Aussi, dans le cas de la classification équitable, la méthode proposée est consistante en terme de risque de classification, tout en satisfaisant asymptotiquement la contrainte d’égalité des chances. De plus, la procédure proposée dans ce cadre d'étude surpasse en pratique les algorithmes de pointe. Le Chapitre 3 décrit le cadre de la classification multi-classes par le biais d'ensembles de confiance. Là encore, une procédure semi-supervisée est proposée et son optimalité presque minimax est établie. Il est en outre établi qu'aucun algorithme supervisé ne peut atteindre une vitesse de convergence dite rapide. Le Chapitre 4 décrit un cas de classification multi-labels dans lequel on cherche à minimiser le taux de faux-négatifs sous réserve de contraintes de type presque sûres sur les règles de classification. Dans cette partie, deux contraintes spécifiques sont prises en compte: les classifieurs parcimonieux et ceux soumis à un contrôle des erreurs négatives à tort. Pour les premiers, un algorithme supervisé est fourni et il est montré que cet algorithme peut atteindre une vitesse de convergence rapide. Enfin, pour la seconde famille, il est montré que des hypothèses supplémentaires sont nécessaires pour obtenir des garanties théoriques sur le risque de classification
Published: 2019

13. Méthodes de type plug-in en classification

Author: Chzhen, Evgenii and STAR, ABES
Subjects: Constrained classification, Classification contrainte, Classification semi-Supervisée, Classification supervisée, Classification par plug-In, Supervised classification, [MATH.MATH-OC] Mathematics [math]/Optimization and Control [math.OC], Confidence sets, Ensembles de confiance, Minimax analysis, Plug-In classification, Analyse minimax, Semi-Supervised classification
Abstract: This manuscript studies several problems of constrained classification. In this frameworks of classification our goal is to construct an algorithm which performs as good as the best classifier that obeys some desired property. Plug-in type classifiers are well suited to achieve this goal. Interestingly, it is shown that in several setups these classifiers can leverage unlabeled data, that is, they are constructed in a semi-supervised manner.Chapter 2 describes two particular settings of binary classification -- classification with F-score and classification of equal opportunity. For both problems semi-supervised procedures are proposed and their theoretical properties are established. In the case of the F-score, the proposed procedure is shown to be optimal in minimax sense over a standard non-parametric class of distributions. In the case of the classification of equal opportunity the proposed algorithm is shown to be consistent in terms of the misclassification risk and its asymptotic fairness is established. Moreover, for this problem, the proposed procedure outperforms state-of-the-art algorithms in the field.Chapter 3 describes the setup of confidence set multi-class classification. Again, a semi-supervised procedure is proposed and its nearly minimax optimality is established. It is additionally shown that no supervised algorithm can achieve a so-called fast rate of convergence. In contrast, the proposed semi-supervised procedure can achieve fast rates provided that the size of the unlabeled data is sufficiently large.Chapter 4 describes a setup of multi-label classification where one aims at minimizing false negative error subject to almost sure type constraints. In this part two specific constraints are considered -- sparse predictions and predictions with the control over false negative errors. For the former, a supervised algorithm is provided and it is shown that this algorithm can achieve fast rates of convergence. For the later, it is shown that extra assumptions are necessary in order to obtain theoretical guarantees in this case, Ce manuscrit étudie plusieurs problèmes de classification sous contraintes. Dans ce cadre de classification, notre objectif est de construire un algorithme qui a des performances aussi bonnes que la meilleure règle de classification ayant une propriété souhaitée. Fait intéressant, les méthodes de classification de type plug-in sont bien appropriées à cet effet. De plus, il est montré que, dans plusieurs configurations, ces règles de classification peuvent exploiter des données non étiquetées, c'est-à-dire qu'elles sont construites de manière semi-supervisée. Le Chapitre 1 décrit deux cas particuliers de la classification binaire - la classification où la mesure de performance est reliée au F-score, et la classification équitable. A ces deux problèmes, des procédures semi-supervisées sont proposées. En particulier, dans le cas du F-score, il s'avère que cette méthode est optimale au sens minimax sur une classe usuelle de distributions non-paramétriques. Aussi, dans le cas de la classification équitable, la méthode proposée est consistante en terme de risque de classification, tout en satisfaisant asymptotiquement la contrainte d’égalité des chances. De plus, la procédure proposée dans ce cadre d'étude surpasse en pratique les algorithmes de pointe. Le Chapitre 3 décrit le cadre de la classification multi-classes par le biais d'ensembles de confiance. Là encore, une procédure semi-supervisée est proposée et son optimalité presque minimax est établie. Il est en outre établi qu'aucun algorithme supervisé ne peut atteindre une vitesse de convergence dite rapide. Le Chapitre 4 décrit un cas de classification multi-labels dans lequel on cherche à minimiser le taux de faux-négatifs sous réserve de contraintes de type presque sûres sur les règles de classification. Dans cette partie, deux contraintes spécifiques sont prises en compte: les classifieurs parcimonieux et ceux soumis à un contrôle des erreurs négatives à tort. Pour les premiers, un algorithme supervisé est fourni et il est montré que cet algorithme peut atteindre une vitesse de convergence rapide. Enfin, pour la seconde famille, il est montré que des hypothèses supplémentaires sont nécessaires pour obtenir des garanties théoriques sur le risque de classification
Published: 2019

14. A scalable robust and automatic propositionalization approach for Bayesian classification of large mixed numerical and categorical data

Author: Nicolas Lachiche, Clément Charnay, Marc Boullé, Orange Labs, Laboratoire des sciences de l'ingénieur, de l'informatique et de l'imagerie (ICube), École Nationale du Génie de l'Eau et de l'Environnement de Strasbourg (ENGEES)-Université de Strasbourg (UNISTRA)-Institut National des Sciences Appliquées - Strasbourg (INSA Strasbourg), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Les Hôpitaux Universitaires de Strasbourg (HUS)-Centre National de la Recherche Scientifique (CNRS)-Matériaux et Nanosciences Grand-Est (MNGE), Université de Strasbourg (UNISTRA)-Université de Haute-Alsace (UHA) Mulhouse - Colmar (Université de Haute-Alsace (UHA))-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut de Chimie du CNRS (INC)-Centre National de la Recherche Scientifique (CNRS)-Université de Strasbourg (UNISTRA)-Université de Haute-Alsace (UHA) Mulhouse - Colmar (Université de Haute-Alsace (UHA))-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut de Chimie du CNRS (INC)-Centre National de la Recherche Scientifique (CNRS)-Réseau nanophotonique et optique, Université de Strasbourg (UNISTRA)-Université de Haute-Alsace (UHA) Mulhouse - Colmar (Université de Haute-Alsace (UHA))-Centre National de la Recherche Scientifique (CNRS)-Université de Strasbourg (UNISTRA)-Centre National de la Recherche Scientifique (CNRS), and univOAK, Archive ouverte
Subjects: Computer science, Relational database, 02 engineering and technology, Overfitting, Machine learning, computer.software_genre, Naive Bayes classifier, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Artificial Intelligence, 020204 information systems, Regularization, 0202 electrical engineering, electronic engineering, information engineering, Propositionalization, Relational data mining, Representation (mathematics), Categorical variable, business.industry, [INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG], Scalability, Supervised classification, Table (database), 020201 artificial intelligence & image processing, Feature construction, Artificial intelligence, business, computer, Software
Abstract: Companies want to extract value from their relational databases. This is the aim of relational data mining. Propositionalization is one possible approach to relational data mining. Propositionalization adds new attributes, called features, to the main table, leading to an attribute-value representation, a single table, on which a propositional learner can be applied. However, current relational databases are large and composed of mixed, numerical and categorical, data. Moreover, the specificity of relational data is to involve one-to-many relationships. As an example of such data, consider customers purchasing products: each customer can purchase several products. Therefore, there is a need for techniques able to learn complex aggregates. Learning such features means to explore a combinatorial, possibly infinite, space and such an approach is prone to overfitting. We introduce a propositionalization approach dedicated to a robust Bayesian classifier. It efficiently samples a given number of features in the language bias, following a distribution over the complex aggregates. This distribution is also used to penalize complex aggregates in the regularization of the robust Bayesian classifier. Experiments show that it performs better than state-of-the-art methods on most investigated benchmarks and can deal with large datasets more easily. A new real, large, mixed relational dataset is introduced which confirms the ability of our approach to learn complex aggregates.
Published: 2019

15. Nonparametric regression on contaminated functional predictor with application to hyperspectral data

Author: Anthony Zullo, Frédéric Ferraty, Mathieu Fauvel, Institut de Mathématiques de Toulouse UMR5219 (IMT), Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS), Dynamiques Forestières dans l'Espace Rural (DYNAFOR), Institut National de la Recherche Agronomique (INRA)-École nationale supérieure agronomique de Toulouse [ENSAT]-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées, Dynamiques et écologie des paysages agriforestiers (DYNAFOR), École nationale supérieure agronomique de Toulouse [ENSAT]-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS), Institut National de la Recherche Agronomique (INRA)-École nationale supérieure agronomique de Toulouse (ENSAT), Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Université de Toulouse (UT), École nationale supérieure agronomique de Toulouse (ENSAT), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université Toulouse 1 Capitole (UT1)-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS), Institut National de la Recherche Agronomique (INRA)-Ecole Nationale Supérieure Agronomique de Toulouse-Institut National Polytechnique (Toulouse) (Toulouse INP), UMR 1201 Dynamiques et écologie des paysages agriforestiers, Ecole d'Ingénieurs de Purpan (INPT - EI Purpan), and Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Institut National Polytechnique (Toulouse) (Toulouse INP)
Subjects: Statistics and Probability, Economics and Econometrics, supervised classification, hyperspectral image, 010504 meteorology & atmospheric sciences, [SDV]Life Sciences [q-bio], 01 natural sciences, 010104 statistics & probability, remote sensing, high dimensional setting, random curve, Covariate, 0101 mathematics, functional data, 0105 earth and related environmental sciences, Mathematics, business.industry, Hyperspectral imaging, Estimator, Pattern recognition, nonparametric functional regression, Regression, Nonparametric regression, ComputingMethodologies_PATTERNRECOGNITION, Rate of convergence, Sample size determination, Errors-in-variables models, errors in variables, Artificial intelligence, Statistics, Probability and Uncertainty, business
Abstract: Regressing nonparametrically a scalar response on a contaminated random curve observed at some measurement grid may be a hard task. To address this common statistical situation, a kernel presmoothing step is achieved on the noisy functional predictor. After that, the kernel estimator of the regression operator is built using the smoothed functional covariate instead of the original corrupted one. The rate of convergence is stated for this nested-kernel estimator with special attention to high-dimensional setting (i.e. the size of the measurement grid is much larger than the sample size). The proposed method is applied to simulated datasets in order to assess its finite-sample properties. Our methodology is further illustrated on a real hyperspectral dataset involving a supervised classification problem.
Published: 2019

16. Potential of on-board color imaging for the detection and mapping of fungal diseases affecting grapevine

Author: Abdelghafour, Florent, STAR, ABES, Da Costa, Jean-Pierre, Germain, Christian, Baret, Frédéric Albert, Carré, Philippe, Rabatel, Gilles, Laboratoire de l'intégration, du matériau au système (IMS), Centre National de la Recherche Scientifique (CNRS)-Institut Polytechnique de Bordeaux-Université Sciences et Technologies - Bordeaux 1, Université de Bordeaux, Jean-Pierre Da Costa, and Christian Germain
Subjects: [PHYS.PHYS]Physics [physics]/Physics [physics], Maladies fongiques, On-board imaging, Imagerie embarquée, Texture analysis, Physiologie de la vigne, Classification supervisée, Supervised classification, Fungal diseases, Grapevine, Vigne, [PHYS.PHYS] Physics [physics]/Physics [physics], Grapevine physiology, Analyse de texture
Abstract: The downy mildew of the vine is a phytopathology of fungal origin particularly worrying for the wine industry. The aim of this thesis is to study the potentialities of on-board color imaging to estimate the health status of vineyards affected by downy mildew on an intra-plot scale. The proposed solution aims at assisting epidemiological monitoring networks in the estimation of health risks and in the recommendation of chemical control plans. In practice, two image processing chains are proposed, one dedicated to the segmentation of vine organs, and the other to the detection, counting and measurement of symptomatic tissues of downy mildew. These two chains are designed on a common strategy and are aimed at images acquired directly at the plot under the conditions of viticultural work. The proposed strategy is based on structure-color representations and probabilistic models of the tissue classes present in the vines. It operates in three steps : Formulating descriptors to extract the characteristic and discriminating properties of each class ; Modelling the statistical distributions of these descriptors in each class ; Assigning each pixel to on of the classes according to its suitability to their models. The descriptors combine the Local Structure Tensors (LST) with colorimetric statistics calculated in the neighborhood of the pixel considered. To account for the specific nature of LSTs, the descriptors are transformed to be represented in the Log-Euclidean space. In this space, it becomes possible to model the classes of interest by distributions of multivariate Gaussian mixtures of structure-color representations. This strategy is first applied to healthy vine images. It involves the partitioning of an image into organ classes (foliage, bunches or inflorescences and stems). A pixel-wise MAP (Maximum A Posteriori) classification is carried out and regularized by stochastic relaxation and mathematical morphology operations. The results obtained for three phenological stages are very convincing. In addition, the processing chain is robust to the setting of the main hyperparameters. In a second step, the previous methodological chain is adapted to process images with symptoms of downy mildew as well as necrosis, discolorations, deficiencies, mechanical wounds, which are confounding factors. The decision method is based on a reconstruction of symptoms by propagation around germs. The criteria used are based on the previously defined color-structure representations and probabilistic models. The new processing chain reliably detects downy mildew symptoms and estimates the area of the affected tissues., Le mildiou de la vigne est une phytopathologie d'origine fongique particulièrement inquiétante pour la filière viticole. L'objectif de cette thèse est d'étudier les potentialités de l'imagerie couleur embarquée pour estimer l'état sanitaire des vignobles affectés par le mildiou à l'échelle intra-parcellaire. La solution proposée vise à assister les réseaux de surveillance épidémiologique dans l'estimation des risques sanitaires et dans la préconisation de plans de lutte chimique. En pratique, la chaîne de traitement d'images construite est dédiée à la détection, au dénombrement et à la mesure des tissus symptomatiques du mildiou. Cette chaîne est conçue pour traiter des images acquises directement à la parcelle dans les conditions de travail viticole.La chaîne de traitement s’appuie des représentations structure-couleur et des modèles probabilistes des classes des tissus présents dans les vignes étudiées. Elle opère en trois étapes : formuler des descripteurs pour extraire les propriétés caractéristiques et discriminantes de chaque classe ; modéliser les distributions statistiques de ces descripteurs dans chacune des classes ; affecter chaque pixel à une classe selon son adéquation à leurs modèles. Les descripteurs combinent le tenseur local de structure (LST) avec des statistiques colorimétriques calculées dans le voisinage du pixel considéré. Pour tenir compte de la nature spécifique des LST, les descripteurs font l'objet de transformations pour être représentés dans l'espace log-euclidien. Dans cet espace, il devient possible de modéliser les classes de tissus d'intérêt par des distributions de mélanges de gaussiennes multivariées des représentations structure-couleur. Enfin, la classification est réalisée par Maximum A Posteriori (MAP). Cette chaîne de traitement est appliquée dans un premier temps à des images de vigne saine. Il s'agit de segmenter une image en classes d'organes (feuillage, grappes ou inflorescences et tiges). Les classifications réalisées se montrent très performantes. De plus, la chaîne de traitement s'avère robuste au réglage des principaux hyper-paramètres.Dans un second temps, la chaîne de traitement est adaptée pour traiter des images comportant des symptômes du mildiou ainsi que des facteurs confondants tels que nécroses, décolorations, carences, plaies mécaniques. La méthode de décision s’appuie sur une reconstruction des symptômes par croissance autour de germes. Les critères utilisés reposent sur les représentations structure-couleur et les modèles probabilistes déjà définis. La nouvelle chaîne de traitement permet de détecter de façon fiable les symptômes du mildiou et d'estimer la surface des tissus affectés.
Published: 2019

17. Mixed Integer Linear Programming for Feature Selection in Support Vector Machine

Author: Martine Labbé, Luisa I. Martínez-Merino, Antonio M. Rodríguez-Chía, Integrated Optimization with Complex Structure (INOCS), Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université libre de Bruxelles (ULB)-Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 (CRIStAL), Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS), Departamento de Estadística e Investigación Operativa, Universidad Rey Juan Carlos [Madrid] (URJC), and Universidad de Sevilla. Departamento de Estadística e Investigación Operativa
Subjects: FOS: Computer and information sciences, Computer Science - Machine Learning, Mathematical optimization, Support vector machine, 0211 other engineering and technologies, Machine Learning (stat.ML), Feature selection, 02 engineering and technology, Machine Learning (cs.LG), Statistics - Machine Learning, FOS: Mathematics, 0202 electrical engineering, electronic engineering, information engineering, Discrete Mathematics and Combinatorics, Limit (mathematics), Mathematics - Optimization and Control, Integer programming, Budget constraint, Mathematics, 021103 operations research, Applied Mathematics, Process (computing), Mathematical programming, Construct (python library), [INFO.INFO-RO]Computer Science [cs]/Operations Research [cs.RO], 90C11, Mathématiques, Hyperplane, Optimization and Control (math.OC), Supervised classification, 020201 artificial intelligence & image processing, Kernel search algorithm
Abstract: This work focuses on support vector machine (SVM)with feature selection. A MILP formulation is proposed for the problem. The choice of suitable features to construct the separating hyperplanes has been modeled in this formulation by including a budget constraint that sets in advance a limit on the number of features to be used in the classification process. We propose both an exact and a heuristic procedure to solve this formulation in an efficient way. Finally, the validation of the model is done by checking it with some well-known data sets and comparing it with classical classification methods., SCOPUS: ar.j, info:eu-repo/semantics/published
Published: 2019

18. Prediction of geological phenomena for decision support when taking exploitation permits

Author: Meunier, François, Learning, Fuzzy and Intelligent systems (LFI), LIP6, Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS), Sorbonne Université, and Christophe Marsala
Subjects: Aide à la décision, Transfert de connaissances, Knowledge transfer, [INFO.INFO-CV]Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV], Supervised Classification, 3D objects, Data science, Decision support, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], Visualisation, Objets 3D, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Classification supervisée, Science des données, Visualization
Abstract: Machine learning, which is considered as an integral part of artificial intelligence, and should ultimately make computers "smart", continues to grow with time, and opens unsuspicious horizons. More and more complex structures tend to be studied by this way, raising the available information to the level of exploitable knowledge. This doctoral work proposes to valorize a particular type of data that are the 3D objects (structures) constructed from mesh, by empirically justifying the undeniable contributions of an extraction of sub-parts coming from these last one. This objective is achieved by solving a forecast problem by a new supervised classification approach for information recommendation. Beyond the expected result, a justification is also provided in the form of the visualization of sub-parts extracted discriminant, thus allowing interpretation by the specialist. In the Total Exploration service, this classification need is initially applied to large 3D structures such as geo-models of geological basins, whose relevant elements belong to sub-parts. During the study of a subsoil, geologists try to understand the subsoil by using 3D data reconstructed through acoustic waves. This understanding can be helped by providing a way to detect some types of shapes within these structures. We propose, in order to answer this problem, a classification system of these 3D structures. Thanks to an adaptation of Time series Shapelets and features selection methods, it is possible to only select the most relevant parts for the targeted classification. To summarize, the main idea is to randomly extract a certain number of sub-surfaces from each 3D object of the learning set, then to study its relevance depending on the expected classification, before using the most relevant one for a more traditional learning based on the degree of belonging of the extract in each object. In industrial companies, the lack of justification of results tends to assimilate machine learning techniques to a black box. The proposed method, however, corrects this problem, and allows the understanding of the result of the decision support provided by the classification built. Indeed, in addition to presenting slightly better forecast results than those provided by the state of the art, it offers a visualization of the sub-parts of the most discriminating 3D objects within the framework of the implemented classification model, and therefore the areas that will have mostly allowed to classify the data. Subsequently, we propose an improvement of this method by two main paths: the first one is the contribution of an adaptation of the transfer of knowledge (or transfer learning applied to the previously proposed algorithm; the second one is an innovative method of attribute selection, based on tools derived from fuzzy subset theory, which proves to be potentially applicable to any type of attribute selection challenge in supervised classification. These multiple results confirm the general potential of random selection of candidate attributes, especially in the context of large amounts of data.; Dans le domaine de l'intelligence artificielle, l'apprentissage automatique (ou Machine Learning) voit son importance grandir de jour en jour. Des structures toujours plus complexes tendent à être étudiées par ce biais, haussant ainsi l'information disponible au rang de connaissance exploitable. Ce travail de doctorat propose de valoriser un certain type de données que sont les objets (structures) 3D construits à partir de maillage, en justifiant empiriquement les apports indéniables d'une extraction de sous-parties issues de ces derniers. Cet objectif est atteint en résolvant un problème de prévision par une nouvelle approche de classification supervisée pour la recommandation d'information. Au delà du résultat attendu, une justification de ce dernier est également fournie sous forme de la visualisation de sous-parties extraites discriminantes, permettant ainsi l'interprétation par le spécialiste. Au sein du service Exploration de Total, ce besoin de classification s'applique initialement aux grandes structures 3D telles que les géo-modèles de bassins géologiques, dont les éléments pertinents tiennent effectivement de sous-parties. Lors de l'étude d'un sous-sol, les géologues cherchent, à partir de données 3D reconstituées grâce à des ondes acoustiques, à comprendre le sous-sol. Cette compréhension peut être aidée en fournissant un moyen de détecter certains types de formes au sein de ces structures. Nous proposons logiquement, afin de répondre à ce problème, un système de classification de ces structures 3D. Grâce à une adaptation des Time Series Shapelets et des méthodes de sélection de features, on parvient à ne sélectionner que les parties les plus pertinentes pour la classification souhaitée. L'idée maîtresse consiste à extraire aléatoirement un certain nombre de sous-surfaces de chaque objet 3D du jeu d'apprentissage, puis à en étudier la pertinence pour la classification souhaitée, avant d'utiliser les plus pertinents pour un apprentissage plus classique basé sur le degré d'imbrication de l'extrait dans chaque objet. En entreprise, l'absence de justification des résultats tend à assimiler l'apprentissage automatique à une boite noire. La méthode proposée, quant à elle, corrige ce problème, et permet la compréhension du résultat de l'aide à la décision fournie par la classification mise en place. En effet, en plus de présenter des résultats de prévision légèrement meilleurs que ceux de l'état de l'art, elle offre une visualisation des sous-parties d'objets 3D les plus discriminantes et donc les zones qui auront le plus d'influence sur la classification des données. Par la suite, nous proposons une amélioration de cette méthode sur deux axes: le premier est l'apport d'une adaptation du transfert de connaissances (ou transfer learning) appliqué à l'algorithme précédemment proposé ; le second est la mise en œuvre d'une méthode novatrice de sélection d'attributs, basée sur des outils issus de la théorie des sous-ensembles flous, est introduite. Cette dernière s'avère être potentiellement applicable à tout type de sélection d'attributs en classification supervisée. Les multiples résultats obtenus confirment le potentiel général de la sélection aléatoire d'attributs candidats, en particulier dans un contexte de grandes quantités de données.
Published: 2018

19. Prédiction de phénomènes géologiques pour l'aide à la décision lors de la prise de permis d'exploitation

Author: Meunier, François, Learning, Fuzzy and Intelligent systems (LFI), LIP6, Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS), Sorbonne Université, and Christophe Marsala
Subjects: Aide à la décision, Transfert de connaissances, Knowledge transfer, [INFO.INFO-CV]Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV], Supervised Classification, 3D objects, Data science, Decision support, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], Visualisation, Objets 3D, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Classification supervisée, Science des données, Visualization
Abstract: Machine learning, which is considered as an integral part of artificial intelligence, and should ultimately make computers "smart", continues to grow with time, and opens unsuspicious horizons. More and more complex structures tend to be studied by this way, raising the available information to the level of exploitable knowledge. This doctoral work proposes to valorize a particular type of data that are the 3D objects (structures) constructed from mesh, by empirically justifying the undeniable contributions of an extraction of sub-parts coming from these last one. This objective is achieved by solving a forecast problem by a new supervised classification approach for information recommendation. Beyond the expected result, a justification is also provided in the form of the visualization of sub-parts extracted discriminant, thus allowing interpretation by the specialist. In the Total Exploration service, this classification need is initially applied to large 3D structures such as geo-models of geological basins, whose relevant elements belong to sub-parts. During the study of a subsoil, geologists try to understand the subsoil by using 3D data reconstructed through acoustic waves. This understanding can be helped by providing a way to detect some types of shapes within these structures. We propose, in order to answer this problem, a classification system of these 3D structures. Thanks to an adaptation of Time series Shapelets and features selection methods, it is possible to only select the most relevant parts for the targeted classification. To summarize, the main idea is to randomly extract a certain number of sub-surfaces from each 3D object of the learning set, then to study its relevance depending on the expected classification, before using the most relevant one for a more traditional learning based on the degree of belonging of the extract in each object. In industrial companies, the lack of justification of results tends to assimilate machine learning techniques to a black box. The proposed method, however, corrects this problem, and allows the understanding of the result of the decision support provided by the classification built. Indeed, in addition to presenting slightly better forecast results than those provided by the state of the art, it offers a visualization of the sub-parts of the most discriminating 3D objects within the framework of the implemented classification model, and therefore the areas that will have mostly allowed to classify the data. Subsequently, we propose an improvement of this method by two main paths: the first one is the contribution of an adaptation of the transfer of knowledge (or transfer learning applied to the previously proposed algorithm; the second one is an innovative method of attribute selection, based on tools derived from fuzzy subset theory, which proves to be potentially applicable to any type of attribute selection challenge in supervised classification. These multiple results confirm the general potential of random selection of candidate attributes, especially in the context of large amounts of data.; Dans le domaine de l'intelligence artificielle, l'apprentissage automatique (ou Machine Learning) voit son importance grandir de jour en jour. Des structures toujours plus complexes tendent à être étudiées par ce biais, haussant ainsi l'information disponible au rang de connaissance exploitable. Ce travail de doctorat propose de valoriser un certain type de données que sont les objets (structures) 3D construits à partir de maillage, en justifiant empiriquement les apports indéniables d'une extraction de sous-parties issues de ces derniers. Cet objectif est atteint en résolvant un problème de prévision par une nouvelle approche de classification supervisée pour la recommandation d'information. Au delà du résultat attendu, une justification de ce dernier est également fournie sous forme de la visualisation de sous-parties extraites discriminantes, permettant ainsi l'interprétation par le spécialiste. Au sein du service Exploration de Total, ce besoin de classification s'applique initialement aux grandes structures 3D telles que les géo-modèles de bassins géologiques, dont les éléments pertinents tiennent effectivement de sous-parties. Lors de l'étude d'un sous-sol, les géologues cherchent, à partir de données 3D reconstituées grâce à des ondes acoustiques, à comprendre le sous-sol. Cette compréhension peut être aidée en fournissant un moyen de détecter certains types de formes au sein de ces structures. Nous proposons logiquement, afin de répondre à ce problème, un système de classification de ces structures 3D. Grâce à une adaptation des Time Series Shapelets et des méthodes de sélection de features, on parvient à ne sélectionner que les parties les plus pertinentes pour la classification souhaitée. L'idée maîtresse consiste à extraire aléatoirement un certain nombre de sous-surfaces de chaque objet 3D du jeu d'apprentissage, puis à en étudier la pertinence pour la classification souhaitée, avant d'utiliser les plus pertinents pour un apprentissage plus classique basé sur le degré d'imbrication de l'extrait dans chaque objet. En entreprise, l'absence de justification des résultats tend à assimiler l'apprentissage automatique à une boite noire. La méthode proposée, quant à elle, corrige ce problème, et permet la compréhension du résultat de l'aide à la décision fournie par la classification mise en place. En effet, en plus de présenter des résultats de prévision légèrement meilleurs que ceux de l'état de l'art, elle offre une visualisation des sous-parties d'objets 3D les plus discriminantes et donc les zones qui auront le plus d'influence sur la classification des données. Par la suite, nous proposons une amélioration de cette méthode sur deux axes: le premier est l'apport d'une adaptation du transfert de connaissances (ou transfer learning) appliqué à l'algorithme précédemment proposé ; le second est la mise en œuvre d'une méthode novatrice de sélection d'attributs, basée sur des outils issus de la théorie des sous-ensembles flous, est introduite. Cette dernière s'avère être potentiellement applicable à tout type de sélection d'attributs en classification supervisée. Les multiples résultats obtenus confirment le potentiel général de la sélection aléatoire d'attributs candidats, en particulier dans un contexte de grandes quantités de données.
Published: 2018

20. L'Extraction des motifs dans des Environnements Massivement Distribués

Author: Zitouni, Mehdi, Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Scientific Data Management (ZENITH), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Laboratoire d'Informatique, Programmation, Algorithmique et Heuristique (LIPAH), Faculté des Sciences Mathématiques, Physiques et Naturelles de Tunis (FST), Université de Tunis El Manar (UTM)-Université de Tunis El Manar (UTM), Université de Tunis El Manar, Inria, Sadok Ben Yahia, Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), and Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Inria Sophia Antipolis - Méditerranée (CRISAM)
Subjects: Data distribution, Massive data, [INFO.INFO-DS]Computer Science [cs]/Data Structures and Algorithms [cs.DS], Extraction de motifs, Données massives, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], Analyse de concepts formels, Pattern mining, Formal concepts, Données distribuées, [INFO.INFO-IT]Computer Science [cs]/Information Theory [cs.IT], Classification supervisée, Supervised classification, [INFO.INFO-DC]Computer Science [cs]/Distributed, Parallel, and Cluster Computing [cs.DC]
Abstract: In the beginning of this thesis, we tackle the problem of CFI mining in big datasets. We adopt a prime-number-based approach to improve the performance of a parallel CFI mining process. We introduce Distributed-Closed-Itemset-Mining (DCIM), a parallel algorithm for mining CFIs from large amounts of data. DCIM allows discovering itemsets with better efficiency and result compactness. A key feature of DCIM is the combination of data mining properties with the principles of massive data distribution. Exhaustive experiments are carried out over real world datasets to illustrate the efficiency of DCIM for large real world datasets with up to 53 million documents.The second problem we address in this thesis is the discovery of maximally informative k-itemsets (miki) from a huge incoming/outgoing data over a stream based on joint entropy. We propose Parallel entropy computing over Streams (PentroS) a highly scalable, parallel miki mining algorithm that renders the mining process of the large throughput of data succinct and effective over a data streaming process. Its mining process is made up of only two efficient parallel jobs. With PentroS, we provide a set of significant optimizations for computing the joint entropy of the miki having different sizes, which drastically reduces the latency rate of the mining process. PentroS is extensively evaluated using a massive real-world data stream. Our experimental results confirm the effectiveness of our proposal by the significant scale-up obtained with lengthy itemsets and over very large throughput of data.Finally, we address the problem of parallel classification in highly distributed environments. We propose Ensemble of Ensembles of Classifiers (EEC), a parallel, scalable and highly accurate classifier algorithm. EEC renders a classification task simple, yet very efficient. Its working process is composed of two simple and compact jobs. Calling to more than one classifier, EEC cleverly exploits the parallelism setting not only to reduce the execution time but also to significantly improve the classification accuracy by performing two level decision making steps. We show that the EEC classification accuracy is improved by using informative patterns and that the classification error can be bounded to a small value. EEC is extensively evaluated using various real-world, large data sets. Our experimental results suggest that EEC is significantly more efficient and more accurate than alternative approaches.; Le problème de l'extraction d'itemset fréquents fermés dans les données massives s'est imposé depuis des décennies. Dans le cadre des travaux entrepris dans cette thèse, nous définissons des techniques d'analyse de données spécifiques, en adoptant une approche basée sur la codification en nombres premiers dans les datasets, dans des environnements massivement distribués afin d'améliorer les performances du processus d'extraction des itemsets fréquents fermés en parallèle (CFI). Nous introduisons DCIM (Distributed Closed Itemsets Mining), un algorithme parallèle pour extraire les CFIs d'une énorme quantité de données. DCIM permet de découvrir l'ensembles des itemset fermés fréquents avec une meilleure efficacité et une compacité des résultats. Une caractéristique clé de DCIM est la combinaison profonde des propriétés d'exploration de données avec les principes de la distribution massive de données. Nous avons réalisé des expériences exhaustives sur des jeux de données du monde réel, des datasets contenant jusqu'à 53 millions de documents, pour illustrer l'efficacité de DCIM.Dans un deuxième temps, nous nous intéressons au problème de la découverte des motifs informatifs maximales de taille k (miki ou "maximally informative k-itemsets) à partir d'un flux de données. Nous proposons PentroS (Parallel Entropy computing over streams), un algorithme pour leur extraction en environnement dynamique et distribué. PentroS rend le processus d'extraction de miki dans des grandes quantités entrantes de données simple et efficace. Avec PentroS, nous proposons un ensemble de techniques d'optimisation pour calculer l'entropie conjointe des motifs de différentes tailles. Ceci permet de réduire le taux de latence du processus d'extraction dans le streaming de manière significative. PentroS a été évalué en simulant des streaming à partir des données massives du monde réel. Les résultats de nos expérimentations confirment l'efficacité de notre approche par le passage à l'échelle de notre approche sur des motifs de grande taille, à partir de très grandes volumes de données entrantes et sortantes.Par ailleurs, la classification est l'une des briques les plus importantes de la fouille de données et de la recherche d'information. Le problème de classification a été largement étudié dans des environnements centralisés. Cependant, dans les environnements massivement distribués, les algorithmes de classification nécessitent une profonde exploitation pour améliorer leur temps d'exécution et leur précision. À cette fin, notre motivation derrière l'extraction des motifs informatifs repose sur le fait qu'ils peuvent être utilisés pour paramétrer efficacement les algorithmes de classification et gagner en terme précision. Ainsi, un déploiement des patterns informatifs comme modèle de feature selection pour les algorithmes de classification supervisée sera nécessaire pour esquisser l'amélioration en taux de précision. Ainsi, dans la troisième contribution de cette thèse, nous abordons le problème de la classification parallèle dans des environnements hautement distribués. Nous proposons EEC (Ensemble of Ensembles of Classifier) pour rendre la tâche de la classification simple et plus efficace. L'algorithme est composé de deux Jobs Spark. Combinant plusieurs classificateurs, EEC exploite profondément le parallélisme sous le framwork Spark pour non seulement réduire le temps d'exécution mais aussi améliorer de manière significative la précision de la classification en effectuant deux étapes de prise de décision. Nous montrons que la précision de la classification de EEC a été améliorée en utilisant des modèles informatifs et que l'erreur de classification peut être limitée à une petite valeur dans un environnement parallèle. EEC a été évalué en utilisant les jeux de données "English Wikipedia articles" et "clue Web". Nos résultats expérimentaux montrent que EEC est significativement plus efficace et précis que les approches pionnières de la littérature.
Published: 2018

21. Parallel Itemset Mining in Massively Distributed Environments

Author: Zitouni, Mehdi, Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Scientific Data Management (ZENITH), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Laboratoire d'Informatique, Programmation, Algorithmique et Heuristique (LIPAH), Faculté des Sciences Mathématiques, Physiques et Naturelles de Tunis (FST), Université de Tunis El Manar (UTM)-Université de Tunis El Manar (UTM), Université de Tunis El Manar, Inria, and Sadok Ben Yahia
Subjects: Data distribution, Massive data, [INFO.INFO-DS]Computer Science [cs]/Data Structures and Algorithms [cs.DS], Extraction de motifs, Données massives, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], Analyse de concepts formels, Pattern mining, Formal concepts, Données distribuées, [INFO.INFO-IT]Computer Science [cs]/Information Theory [cs.IT], Classification supervisée, Supervised classification, [INFO.INFO-DC]Computer Science [cs]/Distributed, Parallel, and Cluster Computing [cs.DC]
Abstract: In the beginning of this thesis, we tackle the problem of CFI mining in big datasets. We adopt a prime-number-based approach to improve the performance of a parallel CFI mining process. We introduce Distributed-Closed-Itemset-Mining (DCIM), a parallel algorithm for mining CFIs from large amounts of data. DCIM allows discovering itemsets with better efficiency and result compactness. A key feature of DCIM is the combination of data mining properties with the principles of massive data distribution. Exhaustive experiments are carried out over real world datasets to illustrate the efficiency of DCIM for large real world datasets with up to 53 million documents.The second problem we address in this thesis is the discovery of maximally informative k-itemsets (miki) from a huge incoming/outgoing data over a stream based on joint entropy. We propose Parallel entropy computing over Streams (PentroS) a highly scalable, parallel miki mining algorithm that renders the mining process of the large throughput of data succinct and effective over a data streaming process. Its mining process is made up of only two efficient parallel jobs. With PentroS, we provide a set of significant optimizations for computing the joint entropy of the miki having different sizes, which drastically reduces the latency rate of the mining process. PentroS is extensively evaluated using a massive real-world data stream. Our experimental results confirm the effectiveness of our proposal by the significant scale-up obtained with lengthy itemsets and over very large throughput of data.Finally, we address the problem of parallel classification in highly distributed environments. We propose Ensemble of Ensembles of Classifiers (EEC), a parallel, scalable and highly accurate classifier algorithm. EEC renders a classification task simple, yet very efficient. Its working process is composed of two simple and compact jobs. Calling to more than one classifier, EEC cleverly exploits the parallelism setting not only to reduce the execution time but also to significantly improve the classification accuracy by performing two level decision making steps. We show that the EEC classification accuracy is improved by using informative patterns and that the classification error can be bounded to a small value. EEC is extensively evaluated using various real-world, large data sets. Our experimental results suggest that EEC is significantly more efficient and more accurate than alternative approaches.; Le problème de l'extraction d'itemset fréquents fermés dans les données massives s'est imposé depuis des décennies. Dans le cadre des travaux entrepris dans cette thèse, nous définissons des techniques d'analyse de données spécifiques, en adoptant une approche basée sur la codification en nombres premiers dans les datasets, dans des environnements massivement distribués afin d'améliorer les performances du processus d'extraction des itemsets fréquents fermés en parallèle (CFI). Nous introduisons DCIM (Distributed Closed Itemsets Mining), un algorithme parallèle pour extraire les CFIs d'une énorme quantité de données. DCIM permet de découvrir l'ensembles des itemset fermés fréquents avec une meilleure efficacité et une compacité des résultats. Une caractéristique clé de DCIM est la combinaison profonde des propriétés d'exploration de données avec les principes de la distribution massive de données. Nous avons réalisé des expériences exhaustives sur des jeux de données du monde réel, des datasets contenant jusqu'à 53 millions de documents, pour illustrer l'efficacité de DCIM.Dans un deuxième temps, nous nous intéressons au problème de la découverte des motifs informatifs maximales de taille k (miki ou "maximally informative k-itemsets) à partir d'un flux de données. Nous proposons PentroS (Parallel Entropy computing over streams), un algorithme pour leur extraction en environnement dynamique et distribué. PentroS rend le processus d'extraction de miki dans des grandes quantités entrantes de données simple et efficace. Avec PentroS, nous proposons un ensemble de techniques d'optimisation pour calculer l'entropie conjointe des motifs de différentes tailles. Ceci permet de réduire le taux de latence du processus d'extraction dans le streaming de manière significative. PentroS a été évalué en simulant des streaming à partir des données massives du monde réel. Les résultats de nos expérimentations confirment l'efficacité de notre approche par le passage à l'échelle de notre approche sur des motifs de grande taille, à partir de très grandes volumes de données entrantes et sortantes.Par ailleurs, la classification est l'une des briques les plus importantes de la fouille de données et de la recherche d'information. Le problème de classification a été largement étudié dans des environnements centralisés. Cependant, dans les environnements massivement distribués, les algorithmes de classification nécessitent une profonde exploitation pour améliorer leur temps d'exécution et leur précision. À cette fin, notre motivation derrière l'extraction des motifs informatifs repose sur le fait qu'ils peuvent être utilisés pour paramétrer efficacement les algorithmes de classification et gagner en terme précision. Ainsi, un déploiement des patterns informatifs comme modèle de feature selection pour les algorithmes de classification supervisée sera nécessaire pour esquisser l'amélioration en taux de précision. Ainsi, dans la troisième contribution de cette thèse, nous abordons le problème de la classification parallèle dans des environnements hautement distribués. Nous proposons EEC (Ensemble of Ensembles of Classifier) pour rendre la tâche de la classification simple et plus efficace. L'algorithme est composé de deux Jobs Spark. Combinant plusieurs classificateurs, EEC exploite profondément le parallélisme sous le framwork Spark pour non seulement réduire le temps d'exécution mais aussi améliorer de manière significative la précision de la classification en effectuant deux étapes de prise de décision. Nous montrons que la précision de la classification de EEC a été améliorée en utilisant des modèles informatifs et que l'erreur de classification peut être limitée à une petite valeur dans un environnement parallèle. EEC a été évalué en utilisant les jeux de données "English Wikipedia articles" et "clue Web". Nos résultats expérimentaux montrent que EEC est significativement plus efficace et précis que les approches pionnières de la littérature.
Published: 2018

22. Étude multi-temporelle de l’évolution des dépôts pyroclastiques et de lahars mis en place dans le bassin versant le plus impacté par l’éruption du Merapi en 2010 à partir d’images à très haute résolution

Author: Le Gal, Alexandre, École supérieure des géomètres et topographes (ESGT-CNAM), Conservatoire National des Arts et Métiers [CNAM] (CNAM), Laboratoire Magmas et Volcans, Campus universitaire des Cézeaux, 6 avenue Blaise Pascal, 63170 Aubière, Stéphane Durand, and Jean-Claude Thouret
Subjects: [SPI]Engineering Sciences [physics], Vegetation, Erosion, Télédétection, Classification supervisée, Hydrographic network, Supervised classification, Remote sensing, Réseau hydrographique
Abstract: The study focuses on the consequences of the 2010 Merapi volcano eruption. Precisely on the evolution of the deposits, vegetation and hydrographic network over the period of 2010 to 2014. To analyze this evolution, supervised classification and hydrographic networks have been determined. With all the data that has been calculated, we have determined an overall factor of the evolution of each year.; L’étude porte sur les conséquences de l’éruption de 2010 du volcan Merapi. Plus précisément sur l’évolution des dépôts, de la végétation, et du réseau hydrographique sur la période allant de 2010 à 2014. Pour analyser cette évolution, des classifications supervisées et des réseaux hydrographiques ont été déterminés. Grâce à l’ensemble des calculs réalisés, nous avons déterminé un facteur global d’évolution pour chaque année.
Published: 2018

23. Attribute Profiles on Derived Textural Features for Highly Textured Optical Image Classification

Author: Sébastien Lefèvre, Minh-Tan Pham, François Merciol, Environment observation with complex imagery (OBELIX), Université de Bretagne Sud (UBS)-SIGNAUX ET IMAGES NUMÉRIQUES, ROBOTIQUE (IRISA-D5), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), CentraleSupélec-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-CentraleSupélec-Télécom Bretagne-Université de Rennes 1 (UR1), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA), Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-CentraleSupélec-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Université de Rennes (UNIV-RENNES)-CentraleSupélec-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-CentraleSupélec, Lefèvre, Sébastien, Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), and Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)
Subjects: Optical image, supervised classification, Computer science, Feature extraction, ComputingMethodologies_IMAGEPROCESSINGANDCOMPUTERVISION, 0211 other engineering and technologies, self-dual attribute profiles (SDAPs), 02 engineering and technology, Texture (geology), Histogram, Index Terms-Remote sensing imagery, 0202 electrical engineering, electronic engineering, information engineering, Electrical and Electronic Engineering, local feature- based APs (LFAPs), 021101 geological & geomatics engineering, Contextual image classification, Index Terms-Optical remote sensing imagery, business.industry, ComputerSystemsOrganization_COMPUTER-COMMUNICATIONNETWORKS, Pattern recognition, Vegetation, morphological attribute profiles, Geotechnical Engineering and Engineering Geology, Random forest, [INFO.INFO-TI] Computer Science [cs]/Image Processing [eess.IV], attribute pro- files (APs), Feature (computer vision), [INFO.INFO-TI]Computer Science [cs]/Image Processing [eess.IV], local feature-based SDAPs (LFSDAPs), 020201 artificial intelligence & image processing, Artificial intelligence, business, texture, random forest
Abstract: International audience; This article introduces an extension of morphological attribute profiles (APs) by extracting their local features. The so-called local feature-based attribute profiles (LFAPs) are expected to provide a better characterization of each APs' filtered pixel (i.e. APs' sample) within its neighborhood, hence better deal with local texture information from the image content. In this work, LFAPs are constructed by extracting some simple first-order statistical features of the local patch around each APs' sample such as mean, standard deviation, range, etc. Then, the final feature vector characterizing each image pixel is formed by combining all local features extracted from APs of that pixel. In addition, since the self-dual attribute profiles (SDAPs) has been proved to outperform the APs in recent years, a similar process will be applied to form the local feature-based SDAPs (LFSDAPs). In order to evaluate the effectiveness of LFAPs and LFSDAPs, supervised classification using both the Random Forest and the Support Vector Machine classifiers is performed on the very high resolution Reykjavik image as well as the hyperspectral Pavia University data. Experimental results show that LFAPs (resp. LFSDAPs) can considerably improve the classification accuracy of the standard APs (resp. SDAPs) and the recently proposed histogram-based APs (HAPs).
Published: 2018

24. Apprentissage automatique de caractéristiques audio : application à la génération de listes de lecture thématiques

Author: Bayle, Yann, Laboratoire Bordelais de Recherche en Informatique (LaBRI), Université de Bordeaux (UB)-Centre National de la Recherche Scientifique (CNRS)-École Nationale Supérieure d'Électronique, Informatique et Radiocommunications de Bordeaux (ENSEIRB), Université de Bordeaux, Pierre Hanna, and Matthias Robine
Subjects: Fouille de mégadonnées, Music information retrieval, Classification supervisée, Digital audio signal processing, Apprentissage automatique et profond, Psychoacoustique, [INFO.INFO-OH]Computer Science [cs]/Other [cs.OH], Supervised classification, Annotations musicales automatiques, Big data mining, Machine and deep learning, Traitement du signal audio numérique, Psychoacoustics
Abstract: This doctoral dissertation presents, discusses and proposes tools for the automatic information retrieval in big musical databases.The main application is the supervised classification of musical themes to generate thematic playlists.The first chapter introduces the different contexts and concepts around big musical databases and their consumption.The second chapter focuses on the description of existing music databases as part of academic experiments in audio analysis.This chapter notably introduces issues concerning the variety and unequal proportions of the themes contained in a database, which remain complex to take into account in supervised classification.The third chapter explains the importance of extracting and developing relevant audio features in order to better describe the content of music tracks in these databases.This chapter explains several psychoacoustic phenomena and uses sound signal processing techniques to compute audio features.New methods of aggregating local audio features are proposed to improve song classification.The fourth chapter describes the use of the extracted audio features in order to sort the songs by themes and thus to allow the musical recommendations and the automatic generation of homogeneous thematic playlists.This part involves the use of machine learning algorithms to perform music classification tasks.The contributions of this dissertation are summarized in the fifth chapter which also proposes research perspectives in machine learning and extraction of multi-scale audio features.; Ce mémoire de thèse de doctorat présente, discute et propose des outils de fouille automatique de mégadonnées dans un contexte de classification supervisée musical.L'application principale concerne la classification automatique des thèmes musicaux afin de générer des listes de lecture thématiques.Le premier chapitre introduit les différents contextes et concepts autour des mégadonnées musicales et de leur consommation.Le deuxième chapitre s'attelle à la description des bases de données musicales existantes dans le cadre d'expériences académiques d'analyse audio.Ce chapitre introduit notamment les problématiques concernant la variété et les proportions inégales des thèmes contenus dans une base, qui demeurent complexes à prendre en compte dans une classification supervisée.Le troisième chapitre explique l'importance de l'extraction et du développement de caractéristiques audio et musicales pertinentes afin de mieux décrire le contenu des éléments contenus dans ces bases de données.Ce chapitre explique plusieurs phénomènes psychoacoustiques et utilise des techniques de traitement du signal sonore afin de calculer des caractéristiques audio.De nouvelles méthodes d'agrégation de caractéristiques audio locales sont proposées afin d'améliorer la classification des morceaux.Le quatrième chapitre décrit l'utilisation des caractéristiques musicales extraites afin de trier les morceaux par thèmes et donc de permettre les recommandations musicales et la génération automatique de listes de lecture thématiques homogènes.Cette partie implique l'utilisation d'algorithmes d'apprentissage automatique afin de réaliser des tâches de classification musicale.Les contributions de ce mémoire sont résumées dans le cinquième chapitre qui propose également des perspectives de recherche dans l'apprentissage automatique et l'extraction de caractéristiques audio multi-échelles.
Published: 2018

25. Methodology for constructing a short-term event risk score in heart failure patients

Author: Jean-Marie Monnez, Eliane Albuisson, Kévin Duarte, Probabilités et statistiques, Institut Élie Cartan de Lorraine ( IECL ), Université de Lorraine ( UL ) -Centre National de la Recherche Scientifique ( CNRS ) -Université de Lorraine ( UL ) -Centre National de la Recherche Scientifique ( CNRS ), Biology, genetics and statistics ( BIGS ), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique ( Inria ) -Institut National de Recherche en Informatique et en Automatique ( Inria ) -Institut Élie Cartan de Lorraine ( IECL ), Centre d'investigation clinique plurithématique Pierre Drouin ( CIC-P ), Centre Hospitalier Régional Universitaire de Nancy ( CHRU Nancy ) -Institut National de la Santé et de la Recherche Médicale ( INSERM ) -Université de Lorraine ( UL ), Santé Publique, Information médicale et Enseignement multimédia Assisté par Ordinateur ( SPI-EAO ), Faculté de Médecine [Nancy], Université de Lorraine ( UL ) -Université de Lorraine ( UL ), ESPRI-Biobase [CHRU Nancy] ( Unité fonctionnelle de la plateforme d’aide à la recherche clinique ), Duarte, Kévin, Biology, genetics and statistics (BIGS), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut Élie Cartan de Lorraine (IECL), Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Centre d'investigation clinique plurithématique Pierre Drouin [Nancy] (CIC-P), Centre d'investigation clinique [Nancy] (CIC), Centre Hospitalier Régional Universitaire de Nancy (CHRU Nancy)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université de Lorraine (UL)-Centre Hospitalier Régional Universitaire de Nancy (CHRU Nancy)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université de Lorraine (UL), Institut Élie Cartan de Lorraine (IECL), Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Santé Publique, Information médicale et Enseignement multimédia Assisté par Ordinateur (SPI-EAO), Université de Lorraine (UL)-Université de Lorraine (UL), ESPRI-Biobase [CHRU Nancy] (Unité fonctionnelle de la plateforme d’aide à la recherche clinique), and Université de Lorraine (UL)-Centre Hospitalier Régional Universitaire de Nancy (CHRU Nancy)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université de Lorraine (UL)-Centre Hospitalier Régional Universitaire de Nancy (CHRU Nancy)-Institut National de la Santé et de la Recherche Médicale (INSERM)
Subjects: Ensemble Predictor, 0211 other engineering and technologies, [MATH] Mathematics [math], 02 engineering and technology, Logistic regression, Linear Discriminant Analysis, Supervised Classification, 01 natural sciences, 010104 statistics & probability, [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST], Statistics, medicine, Medical history, Logistic Regression, [ MATH.MATH-ST ] Mathematics [math]/Statistics [math.ST], [MATH]Mathematics [math], 0101 mathematics, [MATH.MATH-ST] Mathematics [math]/Statistics [math.ST], Categorical variable, Mathematics, Measure (data warehouse), 021103 operations research, General Medicine, Linear discriminant analysis, medicine.disease, Term (time), Variable (computer science), Heart failure, Mixed Data, Scoring
Abstract: International audience; We present a methodology for constructing a short-term event risk score in heart failure patients from an ensemble predictor, using bootstrap samples, two different classification rules, logistic regression and linear discriminant analysis for mixed data, continuous or categorical, and random selection of explanatory variables to build individual predictors. We define a measure of the importance of each variable in the score and an event risk measure by an odds-ratio. Moreover, we establish a property of linear discriminant analysis for mixed data. This methodology is applied to EPHESUS trial patients on whom biological, clinical and medical history variables were measured.
Published: 2018

26. Stratégie d'évaluation de l'état des transformateurs : esquisse de solutions pour la gestion intégrée des transformateurs vieillissants

Author: Eke, Samuel, Ampère (AMPERE), École Centrale de Lyon (ECL), Université de Lyon-Université de Lyon-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Institut National des Sciences Appliquées de Lyon (INSA Lyon), Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), Ampère, Département Méthodes pour l'Ingénierie des Systèmes (MIS), Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-École Centrale de Lyon (ECL), Université de Lyon, and Guy Clerc
Subjects: [SPI.OTHER]Engineering Sciences [physics]/Other, Data, Aging, Unsupervised classification, Solid insulation, Analyse des gaz dissous, Maintenance, Insulating oil, Données, Classifier, Classification non supervisée, Vieillissement, Transformateur de puissance, Classifieur, Dissolved gas analysis, Power transformer, Isolation solide, Classification supervisée, Supervised classification, Huile Isolante, Evaluation
Abstract: This PhD thesis deals the assessment method of the state of power transformers filled with oil. It brings a new approach by implementing classification methods and data mining dedicated to transformer maintenance. It proposes a strategy based on two new oil health indicators built from an adaptive Neuro-Fuzzy Inference System (ANFIS). Two classifiers were built on a labeled learning database. The Naive Bayes classifier was retained for the detection of fault from gases dissolved in oil. A simple and efficient flowchart for evaluating the condition of transformers is proposed. It allows a quick analysis of the parameters resulting from physicochemical analyzes of oil and dissolved gases. Using unsupervised classification techniques through the methods of kmeans and fuzzy C-means allowed to reconstruct operating periods of a transformer, with some particular faults. It has also been demonstrated how these methods can be used as tool to help the maintenance of a group of transformers from available oil analysis data.; Cette thèse de doctorat traite des méthodes d’évaluation de l’état des transformateurs de puissance à huile. Elle apporte une approche particulière de mise en oeuvre des méthodes de classification dans la fouille de données. Elle propose une stratégie qui met en oeuvre deux nouveaux indicateurs de santé de l’huile construit à partir d’un système neuro flou ANFIS (Adaptative Neuro-Fuzzy Inference System) et un classifieur ou prédicteur de défaut construit à partir des méthodes de classification supervisée, notamment le classifieur Bayésien naïf. Un organigramme simple et efficace d’évaluation de l’état des transformateurs y est proposé. Il permet de faire une analyse rapide des paramètres issus des analyses physico-chimiques de l’huile et de des gaz dissous. Une exploitation des méthodes de classification non supervisée, notamment les méthodes de k-moyennes et C-moyennes flous a permis de reconstruire les périodes de fonctionnement d’un transformateur marquées par des défauts particuliers. Il a aussi été démontré comment ces méthodes peuvent servir d’outil d’aide à l’organisation de la maintenance d’un groupe de transformateurs à partir des données d’analyses d’huile disponibles.
Published: 2018

27. Local Feature-Based Attribute Profiles for Optical Remote Sensing Image Classification

Author: Minh-Tan Pham, Sébastien Lefèvre, Erchan Aptoula, Environment observation with complex imagery (OBELIX), SIGNAUX ET IMAGES NUMÉRIQUES, ROBOTIQUE (IRISA-D5), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), Gebze Teknik Üniversitesi [Gebze], Université de Bretagne Sud (UBS)-SIGNAUX ET IMAGES NUMÉRIQUES, ROBOTIQUE (IRISA-D5), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-CentraleSupélec-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Université de Rennes (UNIV-RENNES)-CentraleSupélec-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-Université de Rennes 1 (UR1), and Université de Rennes (UNIV-RENNES)-CentraleSupélec
Subjects: supervised classification, Computer science, Feature vector, 0211 other engineering and technologies, self-dual attribute profiles (SDAPs), 02 engineering and technology, Histogram, 0202 electrical engineering, electronic engineering, information engineering, Computer vision, Electrical and Electronic Engineering, local feature- based APs (LFAPs), 021101 geological & geomatics engineering, Contextual image classification, Pixel, Index Terms-Optical remote sensing imagery, business.industry, ComputerSystemsOrganization_COMPUTER-COMMUNICATIONNETWORKS, Hyperspectral imaging, Sample (graphics), Random forest, Support vector machine, attribute pro- files (APs), Feature (computer vision), [INFO.INFO-TI]Computer Science [cs]/Image Processing [eess.IV], General Earth and Planetary Sciences, local feature-based SDAPs (LFSDAPs), 020201 artificial intelligence & image processing, Artificial intelligence, business
Abstract: International audience; This article introduces an extension of morphological attribute profiles (APs) by extracting their local features. The so-called local feature-based attribute profiles (LFAPs) are expected to provide a better characterization of each APs' filtered pixel (i.e. APs' sample) within its neighborhood, hence better deal with local texture information from the image content. In this work, LFAPs are constructed by extracting some simple first-order statistical features of the local patch around each APs' sample such as mean, standard deviation, range, etc. Then, the final feature vector characterizing each image pixel is formed by combining all local features extracted from APs of that pixel. In addition, since the self-dual attribute profiles (SDAPs) has been proved to outperform the APs in recent years, a similar process will be applied to form the local feature-based SDAPs (LFSDAPs). In order to evaluate the effectiveness of LFAPs and LFSDAPs, supervised classification using both the Random Forest and the Support Vector Machine classifiers is performed on the very high resolution Reykjavik image as well as the hyperspectral Pavia University data. Experimental results show that LFAPs (resp. LFSDAPs) can considerably improve the classification accuracy of the standard APs (resp. SDAPs) and the recently proposed histogram-based APs (HAPs).
Published: 2018

28. Aide à la décision médicale et télémédecine dans le suivi de l’insuffisance cardiaque

Author: Duarte, Kévin, UL, Thèses, Institut Élie Cartan de Lorraine (IECL), Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Centre d'investigation clinique plurithématique Pierre Drouin [Nancy] (CIC-P), Centre d'investigation clinique [Nancy] (CIC), Centre Hospitalier Régional Universitaire de Nancy (CHRU Nancy)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université de Lorraine (UL)-Centre Hospitalier Régional Universitaire de Nancy (CHRU Nancy)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université de Lorraine (UL), Université de Lorraine, Jean-Marie Monnez, Éliane Albuisson, Biology, genetics and statistics (BIGS), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut Élie Cartan de Lorraine (IECL), and Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
Subjects: Analyse discriminante, Variable selection, Apprentissage en ligne, Algorithmes stochastiques, Event score, Heart failure, Intelligence artificielle, Sélection de variables, Données massives, Discriminant analysis, [SDV.MHEP.CSC] Life Sciences [q-bio]/Human health and pathology/Cardiology and cardiovascular system, Insuffisance cardiaque, Score d’événement, Big data, [SDV.MHEP.CSC]Life Sciences [q-bio]/Human health and pathology/Cardiology and cardiovascular system, Stochastic algorithms, [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST], Ensemble predictor, Online learning, Classification supervisée, Supervised classification, Artifical intelligence, Prédicteur d’ensemble, [MATH.MATH-ST] Mathematics [math]/Statistics [math.ST]
Abstract: This thesis is part of the "Handle your heart" project aimed at developing a drug prescription assistance device for heart failure patients. In a first part, a study was conducted to highlight the prognostic value of an estimation of plasma volume or its variations for predicting major short-term cardiovascular events. Two classification rules were used, logistic regression and linear discriminant analysis, each preceded by a stepwise variable selection. Three indices to measure the improvement in discrimination ability by adding the biomarker of interest were used. In a second part, in order to identify patients at short-term risk of dying or being hospitalized for progression of heart failure, a short-term event risk score was constructed by an ensemble method, two classification rules, logistic regression and linear discriminant analysis of mixed data, bootstrap samples, and by randomly selecting predictors. We define an event risk measure by an odds-ratio and a measure of the importance of variables and groups of variables using standardized coefficients. We show a property of linear discriminant analysis of mixed data. This methodology for constructing a risk score can be implemented as part of online learning, using stochastic gradient algorithms to update online the predictors. We address the problem of sequential multidimensional linear regression, particularly in the case of a data stream, using a stochastic approximation process. To avoid the phenomenon of numerical explosion which can be encountered and to reduce the computing time in order to take into account a maximum of arriving data, we propose to use a process with online standardized data instead of raw data and to use of several observations per step or all observations until the current step. We define three processes and study their almost sure convergence, one with a variable step-size, an averaged process with a constant step-size, a process with a constant or variable step-size and the use of all observations until the current step without storing them. These processes are compared to classical processes on 11 datasets. The third defined process with constant step-size typically yields the best results, Cette thèse s’inscrit dans le cadre du projet "Prendre votre cœur en mains" visant à développer un dispositif médical d’aide à la prescription médicamenteuse pour les insuffisants cardiaques. Dans une première partie, une étude a été menée afin de mettre en évidence la valeur pronostique d’une estimation du volume plasmatique ou de ses variations pour la prédiction des événements cardiovasculaires majeurs à court terme. Deux règles de classification ont été utilisées, la régression logistique et l’analyse discriminante linéaire, chacune précédée d’une phase de sélection pas à pas des variables. Trois indices permettant de mesurer l’amélioration de la capacité de discrimination par ajout du biomarqueur d’intérêt ont été utilisés. Dans une seconde partie, afin d’identifier les patients à risque de décéder ou d’être hospitalisé pour progression de l’insuffisance cardiaque à court terme, un score d’événement a été construit par une méthode d’ensemble, en utilisant deux règles de classification, la régression logistique et l’analyse discriminante linéaire de données mixtes, des échantillons bootstrap et en sélectionnant aléatoirement les prédicteurs. Nous définissons une mesure du risque d’événement par un odds-ratio et une mesure de l’importance des variables et des groupes de variables. Nous montrons une propriété de l’analyse discriminante linéaire de données mixtes. Cette méthode peut être mise en œuvre dans le cadre de l’apprentissage en ligne, en utilisant des algorithmes de gradient stochastique pour mettre à jour en ligne les prédicteurs. Nous traitons le problème de la régression linéaire multidimensionnelle séquentielle, en particulier dans le cas d’un flux de données, en utilisant un processus d’approximation stochastique. Pour éviter le phénomène d’explosion numérique et réduire le temps de calcul pour prendre en compte un maximum de données entrantes, nous proposons d’utiliser un processus avec des données standardisées en ligne au lieu des données brutes et d’utiliser plusieurs observations à chaque étape ou toutes les observations jusqu’à l’étape courante sans avoir à les stocker. Nous définissons trois processus et en étudions la convergence presque sûre, un avec un pas variable, un processus moyennisé avec un pas constant, un processus avec un pas constant ou variable et l’utilisation de toutes les observations jusqu’à l’étape courante. Ces processus sont comparés à des processus classiques sur 11 jeux de données. Le troisième processus à pas constant est celui qui donne généralement les meilleurs résultats
Published: 2018

29. Feature Profiles from Attribute Filtering for Classification of Remote Sensing Images

Author: Minh-Tan Pham, Erchan Aptoula, Sébastien Lefèvre, Environment observation with complex imagery (OBELIX), Université de Bretagne Sud (UBS)-SIGNAUX ET IMAGES NUMÉRIQUES, ROBOTIQUE (IRISA-D5), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-CentraleSupélec-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Université de Rennes (UNIV-RENNES)-CentraleSupélec-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-CentraleSupélec, Gebze Technical University, CentraleSupélec-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-CentraleSupélec-Télécom Bretagne-Université de Rennes 1 (UR1), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), and Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)
Subjects: Atmospheric Science, supervised classification, Computer science, Feature extraction, 0211 other engineering and technologies, 02 engineering and technology, fea- ture profiles, Index Terms-Remote sensing imagery, 0202 electrical engineering, electronic engineering, information engineering, Computer vision, Computers in Earth Sciences, 021101 geological & geomatics engineering, Remote sensing, Connected component, Pixel, business.industry, Hyperspectral imaging, Pattern recognition, Panchromatic film, Random forest, Tree (data structure), Feature (computer vision), attribute profiles, [INFO.INFO-TI]Computer Science [cs]/Image Processing [eess.IV], 020201 artificial intelligence & image processing, Artificial intelligence, business, random forest
Abstract: International audience; This paper proposes a novel extension of morphological attribute profiles (APs) for classification of remote sensing data. In standard AP-based approaches, an input image is characterized by a set of filtered images achieved from the sequential application of attribute filters based on the image tree representation. Hence, only pixel values (i.e. gray levels) are employed to form the output profiles. In this paper, during the attribute filtering process, instead of outputting the gray levels, we propose to extract both statistical and geometrical features from the connected components (w.r.t tree nodes) to build the so-called feature profiles (FPs). These features are expected to better characterize the object or region encoded by each connected component. They are then exploited to classify remote sensing images. To evaluate the effectiveness of the proposed approach, supervised classification using the random forest classifier is conducted on the panchromatic Reykjavik image as well as the hyperspectral Pavia University data. Experimental results show the FPs provide a competitive performance compared against standard APs and thus constitute a promising alternative.
Published: 2018

30. Transformer condition assesment strategy : Outline solutions for aging transformers integrated management

Author: Eke, Samuel, STAR, ABES, Ampère (AMPERE), École Centrale de Lyon (ECL), Université de Lyon-Université de Lyon-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Institut National des Sciences Appliquées de Lyon (INSA Lyon), Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), Ampère, Département Méthodes pour l'Ingénierie des Systèmes (MIS), Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-École Centrale de Lyon (ECL), Université de Lyon, and Guy Clerc
Subjects: [SPI.OTHER]Engineering Sciences [physics]/Other, Data, Aging, Unsupervised classification, Solid insulation, Analyse des gaz dissous, Maintenance, Insulating oil, Données, [SPI.OTHER] Engineering Sciences [physics]/Other, Classifier, Classification non supervisée, Vieillissement, Transformateur de puissance, Classifieur, Power transformer, Dissolved gas analysis, Isolation solide, Classification supervisée, Supervised classification, Huile Isolante, Evaluation
Abstract: This PhD thesis deals the assessment method of the state of power transformers filled with oil. It brings a new approach by implementing classification methods and data mining dedicated to transformer maintenance. It proposes a strategy based on two new oil health indicators built from an adaptive Neuro-Fuzzy Inference System (ANFIS). Two classifiers were built on a labeled learning database. The Naive Bayes classifier was retained for the detection of fault from gases dissolved in oil. A simple and efficient flowchart for evaluating the condition of transformers is proposed. It allows a quick analysis of the parameters resulting from physicochemical analyzes of oil and dissolved gases. Using unsupervised classification techniques through the methods of kmeans and fuzzy C-means allowed to reconstruct operating periods of a transformer, with some particular faults. It has also been demonstrated how these methods can be used as tool to help the maintenance of a group of transformers from available oil analysis data., Cette thèse de doctorat traite des méthodes d’évaluation de l’état des transformateurs de puissance à huile. Elle apporte une approche particulière de mise en oeuvre des méthodes de classification dans la fouille de données. Elle propose une stratégie qui met en oeuvre deux nouveaux indicateurs de santé de l’huile construit à partir d’un système neuro flou ANFIS (Adaptative Neuro-Fuzzy Inference System) et un classifieur ou prédicteur de défaut construit à partir des méthodes de classification supervisée, notamment le classifieur Bayésien naïf. Un organigramme simple et efficace d’évaluation de l’état des transformateurs y est proposé. Il permet de faire une analyse rapide des paramètres issus des analyses physico-chimiques de l’huile et de des gaz dissous. Une exploitation des méthodes de classification non supervisée, notamment les méthodes de k-moyennes et C-moyennes flous a permis de reconstruire les périodes de fonctionnement d’un transformateur marquées par des défauts particuliers. Il a aussi été démontré comment ces méthodes peuvent servir d’outil d’aide à l’organisation de la maintenance d’un groupe de transformateurs à partir des données d’analyses d’huile disponibles.
Published: 2018

31. Sélection d'attributs pour la classification d'objets 3D

Author: Meunier, François, Marsala, Christophe, De Runz, Cyril, Castanié, Laurent, Learning, Fuzzy and Intelligent systems (LFI), Laboratoire d'Informatique de Paris 6 (LIP6), Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS), Total E&P, and Meunier, François
Subjects: [INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI], typicality, feature selection, Supervised classification, prototype, 3D objects, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]
Abstract: In this paper, we propose a new feature selection approach for classification. This proposal is based on the use of typicality degrees, in order to highlight some pro-trotypical sub-parts for classes. Associated with an existing method of classification for 3D objects, its effectiveness is experimentally proved and allows a significant improvement of the prediction scores., Dans cet article, une nouvelle approche de sélection d'attributs pour la classification est introduite. Elle est basée sur l'utilisation d'un degré de typicalité afin de mettre en avant des sous-parties prototypiques des classes. Combinéè a une méthode existante de classification supervisée d'objets 3D, son efficacité est va-lidée expérimentalement et permet une amélioration non négligeable des scores de prédiction.
Published: 2017

32. Kalman-Based Carotid-Artery Longitudinal-Kinetics Estimation and Pattern Recognition

Author: D. Galbrun, André Sérusclat, Sami Qorchi, Philippe Moulin, Guillaume Zahnd, Maciej Orkisz, Didier Vray, Imagerie et modélisation Vasculaires, Thoraciques et Cérébrales (MOTIVATE), Centre de Recherche en Acquisition et Traitement de l'Image pour la Santé (CREATIS), Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Université de Lyon-Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Hospices Civils de Lyon (HCL)-Université Jean Monnet [Saint-Étienne] (UJM)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Hospices Civils de Lyon (HCL)-Université Jean Monnet [Saint-Étienne] (UJM)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS), Imaging-based Computational Biomedicine Lab, Nara Institute of Science and Technology, École Nationale Supérieure de Techniques Avancées (ENSTA Paris), Hopital Cardio-Thoracique et Vasculaire Louis Pradel, Hôpital Louis Pradel [CHU - HCL], Hospices Civils de Lyon (HCL)-Hospices Civils de Lyon (HCL), Cardiovasculaire, métabolisme, diabétologie et nutrition (CarMeN), Institut National de la Recherche Agronomique (INRA)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Hospices Civils de Lyon (HCL)-Institut National de la Santé et de la Recherche Médicale (INSERM), Imagerie Ultrasonore, Université Jean Monnet [Saint-Étienne] (UJM)-Hospices Civils de Lyon (HCL)-Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Centre National de la Recherche Scientifique (CNRS)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université Jean Monnet [Saint-Étienne] (UJM)-Hospices Civils de Lyon (HCL)-Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Centre National de la Recherche Scientifique (CNRS)-Institut National de la Santé et de la Recherche Médicale (INSERM), Hospices Civils de Lyon (HCL)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut National des Sciences Appliquées de Lyon (INSA Lyon), and Université de Lyon-Institut National de la Recherche Agronomique (INRA)
Subjects: Computer science, [SDV.IB.IMA]Life Sciences [q-bio]/Bioengineering/Imaging, Carotid arteries, Biomedical Engineering, Biophysics, 030204 cardiovascular system & hematology, 01 natural sciences, Motion tracking, 010309 optics, 03 medical and health sciences, 0302 clinical medicine, Match moving, Discriminative model, Motion estimation, 0103 physical sciences, Trigonometric functions, Computer vision, Ultrasound image, [SPI.ACOU]Engineering Sciences [physics]/Acoustics [physics.class-ph], business.industry, Healthy subjects, Pattern recognition, Kalman filter, Cardiovascular risk, Supervised classification, Artificial intelligence, business, Ultrasound imaging, [SPI.SIGNAL]Engineering Sciences [physics]/Signal and Image processing, Carotid artery
Abstract: Objectives. The context of the study is the early detection of atherosclerosis. The specific aim of the article is to estimate the longitudinal displacements of the carotid artery wall and assess the discriminative power of the estimated motion patterns to distinguish at-risk individuals from healthy subjects. Methods. Motion estimation builds on block matching with a Kalman filter updating the reference-block gray levels, and incorporates a Kalman filter controlling the trajectory via a model using cosine decomposition. The estimated motion patterns were normalized and provided as input features to a machine-learning-based classifier that automatically assigned healthy or at-risk labels. Results. Evaluated on 113 subjects, the method successfully estimated all but one trajectory, and classification achieved 70% sensitivity and 72% specificity. Conclusions. The proposed method is well suited to estimate 2D (longitudinal and radial) quasi-periodic displacements of the arterial wall in ultrasound image sequences. The estimated motion patterns can contribute to discriminate at-risk from healthy subjects.
Published: 2017

33. Développement de modèles spécifiques aux séquences génomique virales

Author: Schmitt, Louise-Amelie, Laboratoire Bordelais de Recherche en Informatique (LaBRI), Université de Bordeaux (UB)-Centre National de la Recherche Scientifique (CNRS)-École Nationale Supérieure d'Électronique, Informatique et Radiocommunications de Bordeaux (ENSEIRB), Université de Bordeaux, Guillaume Blin, and STAR, ABES
Subjects: Phylogénie, Virologie, Assignation taxonomique, [INFO.INFO-OH]Computer Science [cs]/Other [cs.OH], Environment, Signature, Environnement, [INFO.INFO-OH] Computer Science [cs]/Other [cs.OH], Taxonomic assignment, Virology, Classification supervisée, Machine learning, Supervised classification, Metagenomics, K-mers, Apprentissage machine, Phylogeny, Métagénomique
Abstract: DNA sequencing of complex samples containing various living species is a choice approach to study the viral landscape of a given environment. Viral genomes are hard to identify due to their extreme variability and the tight relationship they have with their hosts. We hereby provide new leads for the development of a virusesspecific solution to the need for accurate identification that hasn't found a satisfactory solution in the existing universal software so far., Le séquençage ADN d'échantillons complexes contenant plusieurs espèces est une technique de choix pour étudier le paysage viral d'un milieu donné. Or les génomes viraux sont difficiles à identifier, de par leur extrême variabilité et la relation étroite qu'ils entretiennent avec leurs hôtes. Nous proposons de nouvelles pistes de recherche pour apporter une solution spécifique aux séquences virales afin de répondre au besoin d'identification pour lequel les solutions génériques existantes n'apportent pas de réponse satisfaisante.
Published: 2017

34. Object-based classification of grasslands from high resolution satellite image time series using Gaussian mean map kernels

Author: David Sheeren, Stéphane Girard, Mailys Lopes, Mathieu Fauvel, Dynamiques Forestières dans l'Espace Rural (DYNAFOR), Institut National de la Recherche Agronomique (INRA)-Ecole Nationale Supérieure Agronomique de Toulouse-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées, Modelling and Inference of Complex and Structured Stochastic Systems (MISTIS), Inria Grenoble - Rhône-Alpes, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Jean Kuntzmann (LJK), Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut Polytechnique de Grenoble - Grenoble Institute of Technology-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut Polytechnique de Grenoble - Grenoble Institute of Technology-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut National Polytechnique de Grenoble (INPG), This work was granted by INRA and by Défi Mastodons-CNRS., Institut National de la Recherche Agronomique (INRA)-École nationale supérieure agronomique de Toulouse [ENSAT]-Institut National Polytechnique (Toulouse) (Toulouse INP), Modelling and Inference of Complex and Structured Stochastic Systems (MISTIS ), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Laboratoire Jean Kuntzmann (LJK ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Institut National Polytechnique de Toulouse - Toulouse INP (FRANCE), Institut polytechnique de Grenoble (FRANCE), Institut National de la Recherche Agronomique - INRA (FRANCE), Institut National de la Recherche en Informatique et en Automatique - INRIA (FRANCE), Université Pierre Mendès France, Grenoble 2 - UPMF (FRANCE), Université Joseph Fourier Grenoble 1 - UJF (FRANCE), Institut National Polytechnique de Toulouse - INPT (FRANCE), Institut National de la Recherche Agronomique (INRA)-École nationale supérieure agronomique de Toulouse (ENSAT), Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Université de Toulouse (UT), and Lopes, Mailys
Subjects: [SDV.SA]Life Sciences [q-bio]/Agricultural sciences, 010504 meteorology & atmospheric sciences, Computer science, Science, Gaussian, Biodiversité et Ecologie, SVM, Multispectral image, 0211 other engineering and technologies, 02 engineering and technology, Ingénierie de l'environnement, [SDV.SA.SDS]Life Sciences [q-bio]/Agricultural sciences/Soil study, 01 natural sciences, Normalized Difference Vegetation Index, Object analysis, Kernel (linear algebra), symbols.namesake, kernel methods, [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST], 021101 geological & geomatics engineering, 0105 earth and related environmental sciences, object scale, Pixel, Covariance matrix, business.industry, [SDE.IE]Environmental Sciences/Environmental Engineering, Science des sols, grasslands, Kernel methods, Pattern recognition, 15. Life on land, Gaussian mean map kernels, Support vector machine, Kernel method, object analysis, Kernel (image processing), Grasslands, supervised classification, svm, gaussian mean map kernels, symbols, Supervised classification, General Earth and Planetary Sciences, Satellite Image Time Series, Artificial intelligence, [SDE.BE]Environmental Sciences/Biodiversity and Ecology, business
Abstract: International audience; This paper deals with the classification of grasslands using high resolution satellite image time series. Grasslands considered in this work are semi-natural elements in fragmented landscapes, i.e., they are heterogeneous and small elements. The first contribution of this study is to account for grassland heterogeneity while working at the object scale by modeling its pixels distributions by a Gaussian distribution. To measure the similarity between two grasslands, a new kernel is proposed as a second contribution: the a-Gaussian mean kernel. It allows to weight the influence of the covariance matrix when comparing two Gaussian distributions. This kernel is introduced in Support Vector Machine for the supervised classification of grasslands from south-west France. A dense intra-annual multispectral time series of Formosat-2 satellite is used for the classification of grasslands management practices, while an inter-annual NDVI time series of Formosat-2 is used for permanent and temporary grasslands discrimination. Results are compared to other existing pixel- and object-based approaches in terms of classification accuracy and processing time. The proposed method shows to be a good compromise between processing speed and classification accuracy. It can adapt to the classification constraints and it encompasses several similarity measures known in the literature. It is appropriate for the classification of small and heterogeneous objects such as grasslands.
Published: 2017

35. 3DRESC-TF : Apprentissage par transfert pour la réutilisation de connaissances en classification d'objets 3D

Author: Meunier, François, Marsala, Christophe, Castanié, Laurent, Bringay, Sandra, Learning, Fuzzy and Intelligent systems (LFI), Laboratoire d'Informatique de Paris 6 (LIP6), Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS), and Total E&P
Subjects: [INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI], feature selection, Supervised classification, [INFO]Computer Science [cs], transfer learning, [INFO] Computer Science [cs], 3D objects, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]
Abstract: National audience; Dans cet article, nous proposons une amélioration basée sur du transfert de connaissances d'un algorithme de classification d'objets 3D existant, afin de pouvoir faire face aux manques de données, problème fréquent en apprentis-sage. L'idée maitresse réside dans le fait de transférer directe-ment les sous-parties constructrices d'attributs d'un do-maine vers un autre, afin de conserver les avantages d'in-terprétabilité et de souplesse de la méthode d'origine. Mots Clefs Classification supervisée, objets 3D, apprentissage par transfert, sélection d'attributs. Abstract In this article, we propose an improvement of an algorithm dealing with classification of 3D objects, using transfer learning, in order to face the lack of data, a frequent problem in learning systems. The main idea is to directly transfer some sub-partswhich are attributes builder from one domain to another in order to keep the advantages of interpretability and flexibility of the original method.
Published: 2017

36. A note on supervised classification and Nash-equilibrium problems

Author: Nicolas P. Couellan, Institut de Mathématiques de Toulouse UMR5219 (IMT), Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS), Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), and Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)
Subjects: game theory, Mathematical optimization, 0211 other engineering and technologies, Binary number, 02 engineering and technology, Management Science and Operations Research, Nash equilibrium, Theoretical Computer Science, symbols.namesake, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], 0202 electrical engineering, electronic engineering, information engineering, Generalized nash equilibrium, support vector machine, [MATH]Mathematics [math], Mathematics, 021103 operations research, Dual space, Astrophysics::Instrumentation and Methods for Astrophysics, 020206 networking & telecommunications, multi-class SVM, Class (biology), Computer Science Applications, Support vector machine, Mathematics::Logic, ComputingMethodologies_PATTERNRECOGNITION, generalized Nash equilibrium, symbols, Supervised classification, Game theory
Abstract: International audience; In this note, we investigate connections between supervised classification and (Generalized) Nash equilibrium problems (NEP & GNEP). For the specific case of support vector machines (SVM), we exploit the geometric properties of class separation in the dual space to formulate a non-cooperative game. NEP and Generalized NEP formulations are proposed for both binary and multi-class SVM problems.
Published: 2017

37. Towards ecologically consistent remote sensing mapping of tree communities in French Guiana: Are forest types identifiable from spatio-temporal canopy reflectance patterns?

Author: CHERRINGTON, Emil Alexander, Technische Universität Dresden = Dresden University of Technology (TU Dresden), Institut de Recherche pour le Développement (IRD [France-Sud]), AgroParisTech, Botanique et Modélisation de l'Architecture des Plantes et des Végétations (UMR AMAP), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche pour le Développement (IRD [France-Sud]), European Union Erasmus Mundus doctoral fellowship (Specific Grant Agreement 2013-1462/001-001-EMIIE-MJD), AgroParisTech-ENGREF, Technische Universität Dresden, Raphaël PÉLISSIER, Uta BERGER, FONASO, European Project: Erasmus, Technische Universität Dresden (TUD), and Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Institut National de la Recherche Agronomique (INRA)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut de Recherche pour le Développement (IRD [France-Sud])
Subjects: tropical rainforests, Unsupervised classification, REDD, [SDE.MCG]Environmental Sciences/Global Changes, évolution temporelle, Reducing Emissions from Deforestation and Forest Degradation, forêts tropicales humides, MRV, phenology, temporal variation, Machine Learning, [SDV.EE.ECO]Life Sciences [q-bio]/Ecology, environment/Ecosystems, radiative transfer modelling, Monitoring Reporting and Verification, Guianas, forest ecology, modélisation du transfert radiatif, SPOT VÉGÉTATION, [SDE.ES]Environmental Sciences/Environmental and Society, phénologie, écologie forestière, French Guiana, Guiana Shield, MODIS, Supervised classification, Doctor in Environmental Sciences (AgroParisTech) / Doctor rerum silvaticarum (Technische Universität Dresden), [SDE.BE]Environmental Sciences/Biodiversity and Ecology, Landsat, REDD+, Guyane
Abstract: Tropical forests, which provide important ecosystem functions and services, are increasingly threatened by anthropogenic pressures. This has resulted in an urgent need to understand tree species diversity of those forests. Where knowledge of that diversity is largely from the botanical surveys and local ecological studies, data must inevitably be up-scaled from point observations to the landscape and regional level if a holistic perspective is required. This thesis explores aspects of the spatio-temporal heterogeneity of canopy reflectance patterns over the forests of French Guiana, in order to assess whether this information could help defining an ecologically consistent forest typology. To gain insight into both the spatial and temporal heterogeneity of French Guiana’s forests, instrumental artefacts affecting the satellite data first had to be addressed. Data used in this study represent the spectral response of forest canopies, and the way in which such data are captured makes them susceptible to the ‘bi-directional reflectance distribution function’ (BRDF). BRDF indicates that objects do not reflect light in equal proportions in all directions (isotropically). Thus, forest canopies will reflect light anisotropically depending on factors including canopy roughness, leaf optical properties and inclination, and the position of the sun relative to the sensor. The second chapter of this thesis examines how BRDF affects the canopy reflectance of forests in French Guiana, and how not correcting for BRDF affects spectral classifications of those forests. When monthly reflectance data corrected for the artefact are examined, these suggest seasonally-occurring changes in forest structure or spectral properties of French Guiana’s forests.The third chapter of this thesis thus examines temporal effects of BRDF, and used cross-regional comparisons and plot-level radiative transfer modelling to seek to understand the drivers of the monthly variation of the forests’ canopy reflectance. For the latter, the Discrete Anisotropic Radiative Transfer (DART) model was used along with aerial laser scanning (ALS) observations over different forest structures, indicating that the observed variation in reflectance (and derivatives known as vegetation indices) could not be explained by monthly variations in solar direction. At the regional scale, it was also demonstrated that forests in the Guiana Shield possess temporal variation distinct from forests in central Africa or northern Borneo, forests also lying just above the Equator. Had the observed temporal variation in vegetation indices been the result of BRDF, it would have been expected that the forests in the three zones would have similar patterns of variation, which they did not. Central African forests appear to have their greening synchronized with rainfall, whereas forests in the Guianas appear synchronized with the availability of solar radiation.Further analysis of the vegetation index time-series of observations also indicated that different types of forests in French Guiana possess distinct patterns of temporal variation, suggesting that tropical forest types can be discriminated on the basis of their respective “temporal signatures.” That was exploited in the fourth chapter of the thesis, which maps forests in French Guiana based on their combined spatio-temporal canopy reflectance patterns and by so doing presents a novel way of addressing forest typology, based on ecologically meaningful information.The thesis presented demonstrates that it is possible to adequately address remote sensing data artefacts to examine patterns of spatial and temporal variation in tropical forests. It has shown that phenological patterns of tropical rainforests can be deduced from remote sensing data, and that forest types can be mapped based on spatio-temporal canopy reflectance patterns. It is thus an important contribution to understand the ecology of tropical forests in French Guiana and to improve the toolbox of scientists dealing with the identification of spatio-temporal patterns observable in forests at the landscape level.; Les forêts tropicales fournissent des services écosystémiques globaux mais sont de plus en plus menacées par la pression anthropique. Il en résulte un besoin pressant de mieux caractériser la diversité biologique (taxonomique et fonctionnelle) de ces milieux. La connaissance accumulée à travers les inventaires botaniques et les études écologiques à l’échelle stationnelle peut être utilement complétée par une approche spatiale intégrative à l’échelle du paysage ou de la région. Cette thèse explore certains aspects de l’hétérogénéité spatiale et temporelle des canopées forestières de Guyane telle que caractérisée par différents capteurs satellitaires en vue de proposer une typologie forestière écologiquement pertinente.La première étape de ce travail a été d’identifier et de corriger certains artefacts instrumentaux dans les données de télédétection utilisées. L’anisotropie de la réflectivité des couverts forestiers affecte les mesures spectrales. Cette anisotropie est caractérisée par la fonction de distribution de réflectivité directionnelle dont l’acronyme en anglais est la BRDF (‘bi-directional reflectance distribution function’). La BRDF des couverts forestiers est complexe et dépend notamment de la rugosité de la canopée, des propriétés optiques des feuilles et de leur orientation. Le second chapitre traite de l’importance des effets de BRDF dans les images multispectrales utilisées et des conséquences de leur non prise en compte sur les classifications ultérieures. L’analyse des données mensuelles de réflectance corrigée des effets de BRDF suggère que des changements saisonniers affectant la structure ou les propriétés spectrales intrinsèques de la canopée sont à l’œuvre.Le troisième chapitre examine plus spécifiquement la contribution d’éventuels effets artefactuels résiduels dans les variations temporelles de réflectance corrigée des effets de BRDF. Deux études sont menées l’une comparative à l’échelle régionale et l’autre sur base de simulation du transfert radiatif. L’étude comparative à l’échelle de la ceinture équatoriale montre des patrons temporels distincts sur le bouclier guyanais, en Afrique centrale et sur l’ile de Bornéo. Le « verdissement » des forêts d’Afrique centrale semble synchronisé avec la pluviométrie alors qu’il semble être en phase avec l’évolution du rayonnement solaire disponible en Guyane. Les variations temporelles de géométrie capteur-soleil étant les mêmes pour les différents sites celles-ci ne peuvent être responsables des patrons temporels discordants observés. Dans la seconde étude un modèle de transfert radiatif, DART (‘Discrete Anisotropic Radiative Transfer’), est utilisé pour simuler des images multispectrales pour les différents mois de l’année à partir de scène forestières reconstituées par analyse de levés lidar aérien. Les variations temporelles de géométrie capteur-soleil ne permettent pas de retrouver les variations temporelles observées dans les images réelles, conduisant encore à la conclusion que le signal de variation saisonnière de la réflectance est bien réel.Le quatrième chapitre explore l’intérêt de l’introduction de la variation temporelle de la réflectance de la canopée dans la classification des forêts. L’analyse spatio-temporelle de l’indice de végétation amélioré (EVI) indique que les patrons saisonniers varient spatialement à l’échelle de la Guyane. Une classification basée sur la signature temporelle est proposée et discutée. L’introduction de la signature temporelle saisonnière dans les classifications des couverts forestiers sempervirens ouvre des perspectives nouvelles pour la typologie des forêts tropicales humides.Cette thèse montre qu’il est possible de se prémunir des artefacts instrumentaux liés à la réflectivité directionnelle anisotrope des couverts pour tirer parti des variations saisonnières de la réflectance des canopées tropicales. L’introduction de cette caractéristique du fonctionnement des forêts dans le processus de classification devrait permettre à la fois de raffiner et de renforcer la pertinence des typologies des couverts forestiers tropicaux.
Published: 2016

38. Supervised classification of end-of-lines in clinical text with no manual annotation

Author: Zweigenbaum, Pierre, Grouin, Cyril, Lavergne, Thomas, Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris Saclay (COmUE)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11), and Publications, Limsi
Subjects: [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL], Unlabelled Examples, [INFO]Computer Science [cs], [INFO] Computer Science [cs], Supervised Classification, End-of-line Classification, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL], Natural Language Processing
Abstract: International audience; In some plain text documents, end-of-line marks may or may not mark the boundary of a text unit (e.g., of a paragraph). This vexing problem is likely to impact subsequent natural language processing components, but is seldom addressed in the literature. We propose a method which uses no manual annotation to classify whether end-of-lines must actually be seen as simple spaces (soft line breaks) or as true text unit boundaries. This method, which includes self-training and co-training steps based on token and line length features, achieves 0.943 F-measure on a corpus of short e-books with controlled format, F=0.904 on a random sample of 24 clinical texts with soft line breaks, and F=0.898 on a larger set of mixed clinical texts which may or may not contain soft line breaks, a fairly high value for a method with no manual annotation.
Published: 2016

39. Computer-aided decision system for prostate cancer detection and characterization based on multi-parametric 1.5T MRI

Author: Lehaire, Jérôme, Application des ultrasons à la thérapie (LabTAU), Centre Léon Bérard [Lyon]-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Université de Lyon-Institut National de la Santé et de la Recherche Médicale (INSERM), Images et Modèles, Centre de Recherche en Acquisition et Traitement de l'Image pour la Santé (CREATIS), Université Jean Monnet [Saint-Étienne] (UJM)-Hospices Civils de Lyon (HCL)-Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Centre National de la Recherche Scientifique (CNRS)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université Jean Monnet [Saint-Étienne] (UJM)-Hospices Civils de Lyon (HCL)-Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Centre National de la Recherche Scientifique (CNRS)-Institut National de la Santé et de la Recherche Médicale (INSERM), Université de Lyon, Olivier Rouviere, Carole Lartizien, LabTAU, U1032, INSERM, Université Claude Bernard Lyon 1 FRANCE (LabTAU), Université Claude Bernard Lyon 1 (UCBL) - Institut National de la Santé et de la Recherche Médicale (INSERM), and STAR, ABES
Subjects: [SDV.IB.IMA] Life Sciences [q-bio]/Bioengineering/Imaging, [SDV.IB.IMA]Life Sciences [q-bio]/Bioengineering/Imaging, IRM 1.5T, Classification supervisée, Supervised classification, CAD
Abstract: Prostate cancer is the most frequent and the fourth leading cause of mortality in France. Actual diagnosis methods are often insufficient in order to detect and precisely locate cancer. Multiparametrics MRI is now one of the most promising method for accurate follow-up of the disease. However, the visual interpretation of MRI is not easy and it is shown that there is strongvariability among expert radiologists to perform diagnosis, especially when MR sequences are contradictory. Under these circumstances, a strong interest is for Computer-aided diagnosis systems (CAD) aiming at assisting expert radiologist in their final decision. This thesis presents our work toward the conception of a CADe which final goal is to provide a cancer probability map to expertradiologist. This study is based on a rich dataset of 49 patients made of T2w, dynamic and diffusion MR images. The ground truth was obtained through strict process of annotations and correlation between histology and MRI. This thesis focuses both for cancer detection and characterization in order to provide a cancer probability map correlated to cancer aggressiveness (Gleason score). To that end we used a dictionary learning method to extract new features to better characterize cancer aggressiveness signatures as well as image features. Those features are then used as an input to Support Vector Machines (SVM) and Logistic Regression (LR) classifiers to produce a cancer probability map. We then focused on discriminating agressive cancers (Gleason score >6) from other tissues and provided an analysis of the correlation between cancer aggressiveness and probabilities. Our work conclude on a strong capability to distinguish agressive cancer from other tissues but fails to precisely distinguish different grades of cancers, Le cancer de la prostate est le plus courant en France et la 4ième cause de mortalité par cancer. Les méthodes diagnostics de références actuel sont souvent insuffisantes pour détecter et localiser précisément une lésion. L’imagerie IRM multi-paramétrique est désormais la technique la plusprometteuse pour le diagnostic et la prise en charge du cancer de la prostate. Néanmoins, l’interprétation visuelle des multiples séquences IRM n’est pas aisée. Dans ces conditions, un fort intérêt s’est porté sur les systèmes d’aide au diagnostic dont le but est d’assister le radiologue dans ses décisions. Cette thèse présente la conception d’un système d’aide à la détection (CADe) dontl’approche finale est de fournir au radiologue une carte de probabilité du cancer dans la zone périphérique de la prostate. Ce CADe repose sur une base d’images IRM multi-paramétrique (IRM-mp) 1.5T de types T2w, dynamique et de diffusion provenant d’une base de 49 patients annotés permettant d’obtenir une vérité terrain par analyse stricte des coupes histologiques des pièces de prostate. Cette thèse met l’accent sur la détection des cancers mais aussisur leur caractérisation dans le but de fournir une carte de probabilité corrélée au grade de Gleason des tumeurs. Nous avons utilisé une méthode d’apprentissage de dictionnaires permettant d’extraire de nouvelles caractéristiques descriptives dont l’objectif est de discriminer chacun des cancers. Ces dernières sont ensuite utilisées par deux classifieurs : régression logistique et séparateur à vaste marge (SVM), permettant de produire une carte de probabilité du cancer. Nous avons concentré nos efforts sur la discrimination des cancers agressifs (Gleason>6) et fourni une analyse de la corrélationentre probabilités et scores de Gleason. Les résultats montrent de très bonnes performances de détection des cancers agressifs et l’analyse des probabilités conclue sur une forte capacité du système à séparer les cancers agressifs du reste des tissus mais ne permet pas aisément de distinguer chacundes grades de cancer
Published: 2016

40. Functional data analysis in hyperspectral remote sensing : application to the study of agri-forest landscape

Author: Zullo, Anthony, Institut de Mathématiques de Toulouse UMR5219 (IMT), Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS), Dynamiques et écologie des paysages agriforestiers (DYNAFOR), École nationale supérieure agronomique de Toulouse [ENSAT]-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), Université Paul Sabatier - Toulouse III, Frédéric Ferraty, Mathieu Fauvel, ProdInra, Migration, Dynamiques Forestières dans l'Espace Rural (DYNAFOR), Institut National de la Recherche Agronomique (INRA)-École nationale supérieure agronomique de Toulouse [ENSAT]-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées, M. Frédéric FERRATY (Université Toulouse Jean Jaurès) Directeur de these, M. Mathieu FAUVEL, (Ecole Nationale Supérieure d'Agronomie de Toulouse) CoDirecteur de these, Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS), École nationale supérieure agronomique de Toulouse (ENSAT), Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National Polytechnique (Toulouse) (Toulouse INP), and Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)
Subjects: Hyperspectral remote sensing, Nonparametric regression, [MATH.MATH-FA]Mathematics [math]/Functional Analysis [math.FA], [SDE.ES]Environmental Sciences/Environmental and Society, Functional data, Régression non-paramétrique, [SDE.BE] Environmental Sciences/Biodiversity and Ecology, [INFO.INFO-TI] Computer Science [cs]/Image Processing [eess.IV], [INFO.INFO-TI]Computer Science [cs]/Image Processing [eess.IV], Classification supervisée, Données fonctionnelles, Supervised classification, [SDE.ES] Environmental Sciences/Environmental and Society, [SDE.BE]Environmental Sciences/Biodiversity and Ecology, these, Noised signal, Méthodes parcimonieuses, Télédétection hyperspectrale, Parsimonious methods, Signal bruité
Abstract: In hyperspectral imaging, each pixel is associated with a spectrum derived from observed reflectance in d measurement points (i.e., wavelengths). We are often facing a situation where the sample size n is relatively low compared to the number d of variables. This phenomenon called "curse of dimensionality" is well known in multivariate statistics. The more d increases with respect to n, the more standard statistical methodologies performances are degraded. Reflectance spectra incorporate in their spectral dimension a continuum that gives them a functional nature. A hyperspectrum can be modelised by an univariate function of wavelength and his representation produces a curve. The use of functional methods allows to take into account functional aspects such as continuity, spectral bands order, and to overcome strong correlations coming from the discretization grid fineness. The main aim of this thesis is to assess the relevance of the functional approach in the field of hyperspectral remote sensing for statistical analysis. We focused on the nonparametric fonctional regression model, including supervised classification. Firstly, the functional approach has been compared with multivariate methods usually involved in remote sensing. The functional approach outperforms multivariate methods in critical situations where one has a small training sample size combined with relatively homogeneous classes (that is to say, hard to discriminate). Secondly, an alternative to the functional approach to overcome the curse of dimensionality has been proposed using parsimonious models. This latter allows, through the selection of few measurement points, to reduce problem dimensionality while increasing results interpretability. Finally, we were interested in the almost systematic situation where one has contaminated functional data. We proved that for a fixed sample size, the finer the discretization, the better the prediction. In other words, the larger d is compared to n, the more effective the functional statistical method is., En imagerie hyperspectrale, chaque pixel est associé à un spectre provenant de la réflectance observée en d points de mesure (i.e., longueurs d’onde). On se retrouve souvent dans une situation où la taille d’échantillon n est relativement faible devant le nombre d de variables. Ce phénomène appelé «fléau de la dimension» est bien connu en statistique multivariée. Plus d augmente devant n, plus les performances des méthodologies statistiques standard se dégradent. Les spectres de réflectance intègrent dans leur dimension spectrale un continuum qui leur confère une nature fonctionnelle. Un hyperspectre peut être modélisé par une fonction uni variée de la longueur d’onde, sa représentation produisant une courbe. L’utilisation de méthodes fonctionnelles sur de telles données permet de prendre en compte des aspects fonctionnels tels que la continuité, l’ordre des bandes spectrales, et de s’affranchir des fortes corrélations liées à la finesse de la grille de discrétisation. L’objectif principal de cette thèse est d’évaluer la pertinence de l’approche fonctionnelle dans le domaine de la télédétection hyperspectrale lors de l’analyse statistique. Nous nous sommes focalisés sur le modèle non-paramétrique de régression fonctionnelle, couvrant la classification supervisée. Dans un premier temps, l’approche fonctionnelle a été comparée avec des méthodes multivariées usuellement employées en télédétection. L’approche fonctionnelle surpasse les méthodes multivariées dans des situations délicates où l’on dispose d’une petite taille d’échantillon d’apprentissage combinée à des classes relativement homogènes (c’est-à-dire difficiles à discriminer). Dans un second temps, une alternative à l’approche fonctionnelle pour s’affranchir du fléau de la dimension a été développée à l’aide d’un modèle parcimonieux. Ce dernier permet, à travers la sélection d’un petit nombre de points de mesure, de réduire la dimensionnalité du problème tout en augmentant l’interprétabilité des résultats. Dans un troisième temps, nous nous sommes intéressés à la situation pratique quasi systématique où l’on dispose de données fonctionnelles contaminées. Nous avons démontré que pour une taille d’échantillon fixée, plus la discrétisation est fine, meilleure sera la prédiction. Autrement dit, plus d est grand devant n, plus la méthode statistique fonctionnelle développée est performante.
Published: 2016

41. Using Named Entities to Discover Heterogeneous Events on Twitter

Author: Edouard, Amosse, Scalable and Pervasive softwARe and Knowledge Systems (Laboratoire I3S - SPARKS), Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (... - 2019) (UNS), and COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)
Subjects: [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Named Entities, [INFO.INFO-DS]Computer Science [cs]/Data Structures and Algorithms [cs.DS], Event Detection, Supervised Classification, NLP, Linked Open Data, [INFO.INFO-SI]Computer Science [cs]/Social and Information Networks [cs.SI]
Abstract: International audience; Social media sites such as Twitter 1 and Facebook 2 have emerged as powerful means of communication that allow people to exchange information about their daily activities, latest news or real-world events. Aside social interactions among users, social medias are expected to provide added value services in a variety of domains (e.g sentiment analysis, trend analysis and event detection). Detecting events on social medias poses new challenges due to the sparsity and the informal nature of social media posts. One of the main challenges in detecting events in social media is to differentiate event and non event messages. To face this challenge, we propose to take advantage from the knowledge that can be extracted from the Linked Opened Data (e.g. DBpedia) to enrich the short textual messages with contextual information brought by the presence of named entities. We evaluate our approach on two gold-standard datasets and the preliminary results show that exploiting the ontological categories of the named entities has a positive impact on the classification output.
Published: 2016

42. Combining clustering of variables and feature selection using random forests

Author: Robin Genuer, Marie Chavent, Jérôme Saracco, Quality control and dynamic reliability (CQFD), Institut de Mathématiques de Bordeaux (IMB), Université Bordeaux Segalen - Bordeaux 2-Université Sciences et Technologies - Bordeaux 1-Université de Bordeaux (UB)-Institut Polytechnique de Bordeaux (Bordeaux INP)-Centre National de la Recherche Scientifique (CNRS)-Université Bordeaux Segalen - Bordeaux 2-Université Sciences et Technologies - Bordeaux 1-Université de Bordeaux (UB)-Institut Polytechnique de Bordeaux (Bordeaux INP)-Centre National de la Recherche Scientifique (CNRS)-Inria Bordeaux - Sud-Ouest, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Statistics In System biology and Translational Medicine (SISTM), Inria Bordeaux - Sud-Ouest, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)- Bordeaux population health (BPH), Université de Bordeaux (UB)-Institut de Santé Publique, d'Épidémiologie et de Développement (ISPED)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université de Bordeaux (UB)-Institut de Santé Publique, d'Épidémiologie et de Développement (ISPED)-Institut National de la Santé et de la Recherche Médicale (INSERM), Université Bordeaux Segalen - Bordeaux 2-Université Sciences et Technologies - Bordeaux 1-Université de Bordeaux (UB)-Institut Polytechnique de Bordeaux (Bordeaux INP)-Centre National de la Recherche Scientifique (CNRS), Ecole Nationale Supérieure de Cognitique (ENSC), Institut Polytechnique de Bordeaux, Genuer, Robin, Université Bordeaux Segalen - Bordeaux 2-Université Sciences et Technologies - Bordeaux 1 (UB)-Université de Bordeaux (UB)-Institut Polytechnique de Bordeaux (Bordeaux INP)-Centre National de la Recherche Scientifique (CNRS)-Université Bordeaux Segalen - Bordeaux 2-Université Sciences et Technologies - Bordeaux 1 (UB)-Université de Bordeaux (UB)-Institut Polytechnique de Bordeaux (Bordeaux INP)-Centre National de la Recherche Scientifique (CNRS)-Inria Bordeaux - Sud-Ouest, and Université Bordeaux Segalen - Bordeaux 2-Université Sciences et Technologies - Bordeaux 1 (UB)-Université de Bordeaux (UB)-Institut Polytechnique de Bordeaux (Bordeaux INP)-Centre National de la Recherche Scientifique (CNRS)
Subjects: Statistics and Probability, Clustering high-dimensional data, Variable selection, 0211 other engineering and technologies, Feature selection, Mathematics - Statistics Theory, 02 engineering and technology, Statistics Theory (math.ST), computer.software_genre, 01 natural sciences, 010104 statistics & probability, [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST], Statistics, FOS: Mathematics, 0101 mathematics, Cluster analysis, Categorical variable, [MATH.MATH-ST] Mathematics [math]/Statistics [math.ST], Selection (genetic algorithm), Mathematics, 021103 operations research, Dimensionality reduction, Random forests, Clustering of variables, Hierarchical clustering, Random forest, High-dimensional data, ComputingMethodologies_PATTERNRECOGNITION, Modeling and Simulation, Supervised classification, Data mining, computer
Abstract: Standard approaches to tackle high-dimensional supervised classification problem often include variable selection and dimension reduction procedures. The novel methodology proposed in this paper combines clustering of variables and feature selection. More precisely, hierarchical clustering of variables procedure allows to build groups of correlated variables in order to reduce the redundancy of information and summarizes each group by a synthetic numerical variable. Originality is that the groups of variables (and the number of groups) are unknown a priori. Moreover the clustering approach used can deal with both numerical and categorical variables (i.e. mixed dataset). Among all the possible partitions resulting from dendrogram cuts, the most relevant synthetic variables (i.e. groups of variables) are selected with a variable selection procedure using random forests. Numerical performances of the proposed approach are compared with direct applications of random forests and variable selection using random forests on the original p variables. Improvements obtained with the proposed methodology are illustrated on two simulated mixed datasets (cases $n > p$ and $n < p$, where n is the sample size) and on a real proteomic dataset. Via the selection of groups of variables (based on the synthetic variables), interpretability of the results becomes easier.
Published: 2016

43. Mapping of the natural vegetable trainings on a regional scale by classification of temporal series of satellite images

Author: Cano, Emmanuelle, Littoral, Environnement, Télédétection, Géomatique (LETG - Rennes), Littoral, Environnement, Télédétection, Géomatique UMR 6554 (LETG), Université de Caen Normandie (UNICAEN), Normandie Université (NU)-Normandie Université (NU)-Université d'Angers (UA)-École pratique des hautes études (EPHE), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Université de Brest (UBO)-Université de Rennes 2 (UR2), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Centre National de la Recherche Scientifique (CNRS)-Institut de Géographie et d'Aménagement Régional de l'Université de Nantes (IGARUN), Université de Nantes (UN)-Université de Nantes (UN)-Université de Caen Normandie (UNICAEN), Université de Nantes (UN)-Université de Nantes (UN), Université Rennes 2, Laurence Hubert-Moy, and Véronique Chéret
Subjects: Time series, Télédétection, Classification supervisée, Séries temporelles, Supervised classification, MODIS images, Images MODIS, [SHS.GEO]Humanities and Social Sciences/Geography, Remote sensing, Forest types, Formations forestières
Abstract: Forest cover mapping is an essential tool for forest management. Detailed maps, characterizing forest types at a régional scale, are needed. This need can be fulfilled by médium spatial resolution optical satellite images time sériés. This thesis aims at improving the supervised classification procédure applied to a time sériés, to produce maps detailing forest types at a régional scale. To meet this goal, the improvement of the results obtained by the classification of a MODIS time sériés, performed with a stratification of the study area, was assessed. An improvement of classification accuracy due to stratification built by object-based image analysis was observed, with an increase of the Kappa index value and an increase of the reject fraction rate. These two phenomena are correlated to the classified végétation area. A minimal and a maximal value were identified, respectively related to a too high reject fraction rate and a neutral stratification impact.We carried out a second study, aiming at assessing the influence of the médium spatial resolution time sériés organization and of the algorithm on classification quality. Three distinct classification algorithms (maximum likelihood, Support Vector Machine, Random Forest) and several time sériés were studied. A significant improvement due to temporal and radiométrie effects and the superiority of Random Forest were highlighted by the results. Thematic confusions and low user's and producer's accuracies were still observed for several classes. We finally studied the improvement brought by a spatial resolution change for the images composing the time sériés to discriminate classes of mixed forest species. The conclusions of the former study (MODIS images) were confirmed with DEIMOS images. We can conclude that these effects are independent from input data and their spatial resolution. A significant improvement was also observed with an increase of the Kappa index value from 0,60 with MODIS data to 0,72 with DEIMOS data, due to a decrease of the mixed pixels rate.; La cartographie du couvert végétal est un outil essentiel au suivi et à la gestion et des milieux « naturels ». Des cartes caractérisant les essences forestières à l'échelle régionale sont nécessaires pour la gestion des milieux forestiers. Les séries temporelles d'images satellitaires optiques à moyenne résolution spatiale, peuvent permettre de satisfaire ce besoin. L'objectif de cette thèse est d'améliorer la classification supervisée d'une série temporelle afin de produire des cartes à l'échelle régionale détaillant la composition en essences de la végétation forestière. Nous avons d'abord évalué l'apport de la stratification du site d'étude pour améliorer les résultats de la classification d'une série temporelle d'images MODIS. Le recours à une stratification à partir d'une segmentation orientée objet améliore la classification supervisée, avec une augmentation de la valeur de Kappa et du taux de rejet des pixels à classer. Un seuil minimal et un seuil maximal de la surface de végétation à classer ont été identifiés, correspondant respectivement à un taux de rejet trop élevé et à une absence d'effet de la stratification. Nous avons ensuite évalué l'influence de l'organisation de la série temporelle d'images à moyenne résolution spatiale et du choix de l'algorithme de classification. Cette évaluation a été effectuée pour trois algorithmes (maximum de vraisemblance, Support Vector Machine, Random Forest) en faisant varier les caractéristiques de la série temporelle. On observe un effet de la temporalité et de la radiométrie sur la précision de la classification particulièrement significatif et la supériorité de l'algorithme Random Forest. Sur le plan thématique, des confusions subsistent et certains mélanges d'essences sont mal distingués. Nous avons alors cherché à évaluer l'apport du changement de résolution spatiale des images composant la série temporelle pour améliorer les résultats de classification. Les conclusions effectuées précédemment avec les données MODIS sont confortées, ce qui permet de conclure qu'elles sont indépendantes des données d'entrée et de leur résolution spatiale. Une amélioration significative est apportée par le changement de résolution spatiale, avec une augmentation de l'indice de Kappa de 0,60 à 0,72 obtenue grâce à la diminution de la proportion de pixels mixtes. Quelle que soit la résolution spatiale des images utilisées, les résultats obtenus montrent que la définition d'une procédure optimale améliore sensiblement les résultats de la classification.
Published: 2016

44. Valeur pronostique d'une estimation du volume plasmatique dans l'insuffisance cardiaque

Author: Duarte, Kévin, Monnez, Jean-Marie, Albuisson, Eliane, Biology, genetics and statistics (BIGS), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut Élie Cartan de Lorraine (IECL), Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Institut Élie Cartan de Lorraine (IECL), Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), ESPRI-Biobase [CHRU Nancy] (Unité fonctionnelle de la plateforme d’aide à la recherche clinique), Centre d'investigation clinique plurithématique Pierre Drouin [Nancy] (CIC-P), Centre d'investigation clinique [Nancy] (CIC), Centre Hospitalier Régional Universitaire de Nancy (CHRU Nancy)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université de Lorraine (UL)-Centre Hospitalier Régional Universitaire de Nancy (CHRU Nancy)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université de Lorraine (UL), Duarte, Kévin, and Université de Lorraine (UL)-Centre Hospitalier Régional Universitaire de Nancy (CHRU Nancy)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université de Lorraine (UL)-Centre Hospitalier Régional Universitaire de Nancy (CHRU Nancy)-Institut National de la Santé et de la Recherche Médicale (INSERM)
Subjects: sélection de variables, supervised classification, [STAT.AP]Statistics [stat]/Applications [stat.AP], classification supervisée, [SDV.MHEP.CSC]Life Sciences [q-bio]/Human health and pathology/Cardiology and cardiovascular system, [STAT.AP] Statistics [stat]/Applications [stat.AP], heart failure, insuffisance cardiaque, variable selection, [SDV.MHEP.CSC] Life Sciences [q-bio]/Human health and pathology/Cardiology and cardiovascular system
Abstract: Heart failure is a major public health problem. Congestion is the main cause of hospitalization in heart failure patients. Its assessment is therefore of paramount importance in order to optimize patient management and to prevent hospital readmissions in this disease. Plasma volume is a congestion marker which is difficult to quantify noninvasively in routine clinical practice. Indirect measures can then be used to estimate the plasma volume and his variations. In order to highlight the usefulness of these measures to predict early cardiovascular events, supervised classification models were performed (logistic regression, linear discriminant analysis), preceded by a stepwise selection of variables and tested by cross-validation. The contribution of the biomarker of interest in predicting the prognosis was quantified using three indices: Increase Area Under ROC Curve (IAUC), continuous Net Reclassification Improvement (cNRI) and Integrated Discrimination Improvement (IDI)., L'insuffisance cardiaque est un problème majeur de santé publique. La congestion est la principale cause d'hospitalisation chez les insuffisants cardiaques. Son évaluation est donc d'une importance primordiale afin d'optimiser la prise en charge des insuffisants cardiaques et ainsi éviter les ré-hospitalisations trop fréquentes. Le volume plasmatique est un marqueur de congestion toutefois difficile à quantifier de manière non-invasive en pratique clinique de routine. Des mesures indirectes peuvent alors être utilisées pour estimer le volume plasmatique ou ses variations. Afin de mettre en évidence l'utilité de ces différentes mesures pour prédire les événements cardiovasculaires précoces, des modèles de classification supervisée ont été réalisés (régression logistique, analyse discriminante linéaire), précédés par une phase de sélection progressive des variables et testés par validation croisée. L'apport du biomarqueur d'intérêt à la prédiction du pronostic a été quantifié à l'aide de trois indices : la différence entre deux aires sous la courbe ROC (IAUC), le « Net Reclassification Improvement » continu (cNRI) et l' « Integrated Discrimination Improvement » (IDI).
Published: 2016

45. Texture Retrieval from VHR Optical Remote Sensed Images using the Local Extrema Descriptor with Application to Vineyard Parcel Detection

Author: Olivier Regniers, Minh Pham, Julien Michel, Gregoire Mercier, Lab-STICC_TB_CID_TOMS, Laboratoire des sciences et techniques de l'information, de la communication et de la connaissance (Lab-STICC), École Nationale d'Ingénieurs de Brest (ENIB)-Université de Bretagne Sud (UBS)-Université de Brest (UBO)-Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques (IBNM), Université de Brest (UBO)-Université européenne de Bretagne - European University of Brittany (UEB)-École Nationale Supérieure de Techniques Avancées Bretagne (ENSTA Bretagne)-Institut Mines-Télécom [Paris] (IMT)-Centre National de la Recherche Scientifique (CNRS)-École Nationale d'Ingénieurs de Brest (ENIB)-Université de Bretagne Sud (UBS)-Université de Brest (UBO)-Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques (IBNM), Université de Brest (UBO)-Université européenne de Bretagne - European University of Brittany (UEB)-École Nationale Supérieure de Techniques Avancées Bretagne (ENSTA Bretagne)-Institut Mines-Télécom [Paris] (IMT)-Centre National de la Recherche Scientifique (CNRS), Département Image et Traitement Information (ITI), Université européenne de Bretagne - European University of Brittany (UEB)-Télécom Bretagne-Institut Mines-Télécom [Paris] (IMT), I-Sea (Entreprise), and Centre National d'Études Spatiales [Toulouse] (CNES)
Subjects: Very high resolution (VHR) images, Similarity (geometry), Computer science, Feature extraction, 0211 other engineering and technologies, ComputingMethodologies_IMAGEPROCESSINGANDCOMPUTERVISION, 02 engineering and technology, Texture (geology), 0202 electrical engineering, electronic engineering, information engineering, Vineyard cultivation, Computer vision, lcsh:Science, Image retrieval, 021101 geological & geomatics engineering, Pixel, business.industry, Local extrema-based descriptor, Panchromatic film, Maxima and minima, Statistical classification, [INFO.INFO-TI]Computer Science [cs]/Image Processing [eess.IV], Supervised classification, General Earth and Planetary Sciences, lcsh:Q, 020201 artificial intelligence & image processing, Artificial intelligence, business, Texture retrieval, local extrema-based descriptor (LED), [SPI.SIGNAL]Engineering Sciences [physics]/Signal and Image processing
Abstract: International audience; In this article, we develop a novel method for the detection of vineyard parcels in agricultural landscapes based on very high resolution (VHR) optical remote sensing images. Our objective is to perform texture-based image retrieval and supervised classification algorithms. To do that, the local textural and structural features inside each image are taken into account to measure its similarity to other images. In fact, VHR images usually involve a variety of local textures and structures that may verify a weak stationarity hypothesis. Hence, an approach only based on characteristic points, not on all pixels of the image, is supposed to be relevant. This work proposes to construct the local extrema-based descriptor (LED) by using the local maximum and local minimum pixels extracted from the image. The LED descriptor is formed based on the radiometric, geometric and gradient features from these local extrema. We first exploit the proposed LED descriptor for the retrieval task to evaluate its performance on texture discrimination. Then, it is embedded into a supervised classification framework to detect vine parcels using VHR satellite images. Experiments performed on VHR panchromatic PLEIADES image data prove the effectiveness of the proposed strategy. Compared to state-of-the-art methods, an enhancement of about 7% in retrieval rate is achieved. For the detection task, about 90% of vineyards are correctly detected.
Published: 2016

46. Depth and depth-based classification with R-package ddalpha

Author: Rainer Dyckerhoff, Oleksii Pokotylo, Pavlo Mozharovskyi, University of Cologne, Institut de Recherche Mathématique de Rennes ( IRMAR ), Université de Rennes 1 ( UR1 ), Université de Rennes ( UNIV-RENNES ) -Université de Rennes ( UNIV-RENNES ) -AGROCAMPUS OUEST-École normale supérieure - Rennes ( ENS Rennes ) -Institut National de Recherche en Informatique et en Automatique ( Inria ) -Institut National des Sciences Appliquées ( INSA ) -Université de Rennes 2 ( UR2 ), Université de Rennes ( UNIV-RENNES ) -Centre National de la Recherche Scientifique ( CNRS ), Laboratoire de Mathématiques Appliquées Agrocampus ( LMA2 ), AGROCAMPUS OUEST, Institut de Recherche Mathématique de Rennes (IRMAR), Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Université de Rennes 2 (UR2), Université de Rennes (UNIV-RENNES)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA), Laboratoire de Mathématiques Appliquées Agrocampus (LMA2), Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro), Cologne Graduate School of Management, Economics and Social Sciences, Lebesgue Centre of Mathematics, Universität zu Köln, Ecole Nationale de la Statistique et de l'Analyse de l'Information [Bruz] (ENSAI), Centre de Recherche en Économie et Statistique (CREST), Ecole Nationale de la Statistique et de l'Analyse de l'Information [Bruz] (ENSAI)-École polytechnique (X)-École Nationale de la Statistique et de l'Administration Économique (ENSAE Paris)-Centre National de la Recherche Scientifique (CNRS), Signal, Statistique et Apprentissage (S2A), Laboratoire Traitement et Communication de l'Information (LTCI), Institut Mines-Télécom [Paris] (IMT)-Télécom Paris-Institut Mines-Télécom [Paris] (IMT)-Télécom Paris, Département Informatique et Réseaux (INFRES), Télécom ParisTech, Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), and Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-École normale supérieure - Rennes (ENS Rennes)-Université de Rennes 2 (UR2)-Centre National de la Recherche Scientifique (CNRS)-INSTITUT AGRO Agrocampus Ouest
Subjects: FOS: Computer and information sciences, Statistics and Probability, Computer science, Computation, Machine Learning (stat.ML), 02 engineering and technology, Data depth, computer.software_genre, 01 natural sciences, Statistics - Computation, 010104 statistics & probability, visualisation, Software, Statistics - Machine Learning, [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST], Benchmark (surveying), 0202 electrical engineering, electronic engineering, information engineering, DD-plot, Point (geometry), ddalpha, [ MATH.MATH-ST ] Mathematics [math]/Statistics [math.ST], 0101 mathematics, [STAT.CO]Statistics [stat]/Computation [stat.CO], lcsh:Statistics, lcsh:HA1-4737, visualization, Computation (stat.CO), ComputingMilieux_MISCELLANEOUS, business.industry, functional classification, Function (mathematics), Visualization, outsiders, Pattern recognition (psychology), data depth, supervised classification, Supervised classification, 020201 artificial intelligence & image processing, Data mining, Statistics, Probability and Uncertainty, Focus (optics), business, computer
Abstract: Following the seminal idea of Tukey, data depth is a function that measures how close an arbitrary point of the space is located to an implicitly defined center of a data cloud. Having undergone theoretical and computational developments, it is now employed in numerous applications with classification being the most popular one. The R-package ddalpha is a software directed to fuse experience of the applicant with recent achievements in the area of data depth and depth-based classification. ddalpha provides an implementation for exact and approximate computation of most reasonable and widely applied notions of data depth. These can be further used in the depth-based multivariate and functional classifiers implemented in the package, where the $DD\alpha$-procedure is in the main focus. The package is expandable with user-defined custom depth methods and separators. The implemented functions for depth visualization and the built-in benchmark procedures may also serve to provide insights into the geometry of the data and the quality of pattern recognition.
Published: 2016

47. Détection et caractérisation du cancer de la prostate par images IRM 1.5T multiparamétriques

Author: Lehaire, Jérôme, STAR, ABES, Université de Lyon, Olivier Rouviere, and Carole Lartizien
Subjects: [SDV.IB.IMA] Life Sciences [q-bio]/Bioengineering/Imaging, [SDV.IB.IMA]Life Sciences [q-bio]/Bioengineering/Imaging, IRM 1.5T, Classification supervisée, Supervised classification, CAD
Abstract: Prostate cancer is the most frequent and the fourth leading cause of mortality in France. Actual diagnosis methods are often insufficient in order to detect and precisely locate cancer. Multiparametrics MRI is now one of the most promising method for accurate follow-up of the disease. However, the visual interpretation of MRI is not easy and it is shown that there is strongvariability among expert radiologists to perform diagnosis, especially when MR sequences are contradictory. Under these circumstances, a strong interest is for Computer-aided diagnosis systems (CAD) aiming at assisting expert radiologist in their final decision. This thesis presents our work toward the conception of a CADe which final goal is to provide a cancer probability map to expertradiologist. This study is based on a rich dataset of 49 patients made of T2w, dynamic and diffusion MR images. The ground truth was obtained through strict process of annotations and correlation between histology and MRI. This thesis focuses both for cancer detection and characterization in order to provide a cancer probability map correlated to cancer aggressiveness (Gleason score). To that end we used a dictionary learning method to extract new features to better characterize cancer aggressiveness signatures as well as image features. Those features are then used as an input to Support Vector Machines (SVM) and Logistic Regression (LR) classifiers to produce a cancer probability map. We then focused on discriminating agressive cancers (Gleason score >6) from other tissues and provided an analysis of the correlation between cancer aggressiveness and probabilities. Our work conclude on a strong capability to distinguish agressive cancer from other tissues but fails to precisely distinguish different grades of cancers, Le cancer de la prostate est le plus courant en France et la 4ième cause de mortalité par cancer. Les méthodes diagnostics de références actuel sont souvent insuffisantes pour détecter et localiser précisément une lésion. L’imagerie IRM multi-paramétrique est désormais la technique la plusprometteuse pour le diagnostic et la prise en charge du cancer de la prostate. Néanmoins, l’interprétation visuelle des multiples séquences IRM n’est pas aisée. Dans ces conditions, un fort intérêt s’est porté sur les systèmes d’aide au diagnostic dont le but est d’assister le radiologue dans ses décisions. Cette thèse présente la conception d’un système d’aide à la détection (CADe) dontl’approche finale est de fournir au radiologue une carte de probabilité du cancer dans la zone périphérique de la prostate. Ce CADe repose sur une base d’images IRM multi-paramétrique (IRM-mp) 1.5T de types T2w, dynamique et de diffusion provenant d’une base de 49 patients annotés permettant d’obtenir une vérité terrain par analyse stricte des coupes histologiques des pièces de prostate. Cette thèse met l’accent sur la détection des cancers mais aussisur leur caractérisation dans le but de fournir une carte de probabilité corrélée au grade de Gleason des tumeurs. Nous avons utilisé une méthode d’apprentissage de dictionnaires permettant d’extraire de nouvelles caractéristiques descriptives dont l’objectif est de discriminer chacun des cancers. Ces dernières sont ensuite utilisées par deux classifieurs : régression logistique et séparateur à vaste marge (SVM), permettant de produire une carte de probabilité du cancer. Nous avons concentré nos efforts sur la discrimination des cancers agressifs (Gleason>6) et fourni une analyse de la corrélationentre probabilités et scores de Gleason. Les résultats montrent de très bonnes performances de détection des cancers agressifs et l’analyse des probabilités conclue sur une forte capacité du système à séparer les cancers agressifs du reste des tissus mais ne permet pas aisément de distinguer chacundes grades de cancer
Published: 2016

48. Estimation non-paramétrique du quantile conditionnel et apprentissage semi-paramétrique : Applications en assurance et actuariat

Author: knefati, Muhammad Anas, Université de Poitiers - Faculté de Sciences fondamentales et appliquées, Université de Poitiers, and Farid Beninel
Subjects: supervised classification, Apprentissage statistique, Nonparametric estimation of conditional quantile, Régression non-paramétrique, Statistical learning, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Classification supervisée, Machine learning, semi parametric single index models, Paramètre de lissage, Modèles à score unique, Mean Regression, Quantile, Estimation non-paramétrique du quantile conditionnel, Smoothing parameter
Abstract: The thesis consists of two parts: One part is about the estimation of conditional quantiles and the other is about supervised learning. The "conditional quantile estimate" part is organized into 3 chapters. Chapter 1 is devoted to an introduction to the local linear regression and then goes on to present the methods, the most used in the literature to estimate the smoothing parameter.Chapter 2 addresses the nonparametric estimation methods of conditional quantile and then gives numerical experiments on simulated data and real data. Chapter 3 is devoted to a new conditional quantile estimator, we propose. This estimator is based on the use of asymmetrical kernelsw.r.t.x. We show, under some hypothesis, that this new estimator is more efficient than the other estimators already used. The "supervised learning" part is, too, with 3 chapters. Chapter 4 provides an introduction to statistical learning, remembering the basic concepts used in this part. Chapter 5 discusses the conventional methods of supervised classification. Chapter 6 is devoted to propose a method of transferring a semiparametric model. The performance of this method is shown by numerical experiments on morphometric data and credit-scoring data.; La thèse se compose de deux parties : une partie consacrée à l'estimation des quantiles conditionnels et une autre à l'apprentissage supervisé. La partie "Estimation des quantiles conditionnels" est organisée en 3 chapitres : Le chapitre 1 est consacré à une introduction sur la régression linéaire locale, présentant les méthodes les plus utilisées, pour estimer le paramètre de lissage. Le chapitre 2 traite des méthodes existantes d’estimation nonparamétriques du quantile conditionnel ; Ces méthodes sont comparées, au moyen d’expériences numériques sur des données simulées et des données réelles. Le chapitre 3 est consacré à un nouvel estimateur du quantile conditionnel et que nous proposons ; Cet estimateur repose sur l'utilisation d'un noyau asymétrique en x. Sous certaines hypothèses, notre estimateur s'avère plus performant que les estimateurs usuels. La partie "Apprentissage supervisé" est, elle aussi, composée de 3 chapitres : Le chapitre 4 est une introduction à l’apprentissage statistique et les notions de base utilisées, dans cette partie. Le chapitre 5 est une revue des méthodes conventionnelles de classification supervisée. Le chapitre 6 est consacré au transfert d'un modèle d'apprentissage semi-paramétrique. La performance de cette méthode est montrée par des expériences numériques sur des données morphométriques et des données de credit-scoring.
Published: 2015

49. Contributions to fault detection and diagnosis in systems by Bayesian networks

Author: Atoui, Mohamed Amine, Laboratoire Angevin de Recherche en Ingénierie des Systèmes (LARIS), Université d'Angers (UA), Université d'Angers, Abdessamad Kobi, and Sylvain Verron
Subjects: Bayesian networks, Faults detection and diagnosis, Réseaux conditionnels Gaussiens, Classification supervisée, Statistics, Supervised classification, Statistiques, Détection et diagnostic de fautes, Réseaux Bayésiens, Conditional Gaussian networks, [SPI.AUTO]Engineering Sciences [physics]/Automatic
Abstract: Systems failures can potentially lead to serious consequences forhuman, environment and material, and sometimes fixing them could be expensive and even dangerous. Thus, in order to avoid these undesirable situations, it becomes very important and essential for modern complex systems to detect and identify any changes in their nominal operations before they become critical. To do so, several detection and diagnosis methods have been proposed or enhanced during the last decades. Among these methods, those with a great interest are based on a statistical and probabilistic tool named Bayesian network. However, the majority of these methods do not handle the risk of false alarm in their decision-making. The interest of this thesis is to introduce, under Bayesian network, probabilistic limits able to respect a given significance level. More precisely, we propose to model the quadratic statistics and their limits in Bayesian network. This allows us to generalize under Bayesian network fault detection schemes as those associated to the principal component analysis. This modeling allows us also to propose a family of Bayesian networks that can make detection and diagnosis simultaneously, while taking into account the distance rejection.Finally, we propose a probabilistic framework able to unify different BNs dedicated to the detection or diagnosis of systems faults.; Les fautes systèmes peuvent conduire à des conséquences sérieuses pour l’humain, l’environnement et le matériel. Or, y remédier peut s’avérer coûteux voire même dangereux. Ainsi, afin d’éviter ces situations, il est devenu essentiel pour les systèmes complexes modernes de détecter et d’identifier tout changement dans leur fonctionnement nominal avant que cela ne devienne critique. De ce fait, plusieurs méthodes de détection et de diagnostic ont été proposées ou améliorées durant les dernières décennies. Parmi ces méthodes, celles présentant un fort intérêt se basent sur un outil statistique et probabiliste nommé réseau Bayésien. Toutefois, la majorité d’entre elles ne tiennent pas compte du risque de fausse alarme dans leur prise de décision. L’intérêt de cette thèse est alors d’introduire sous réseau Bayésien des limites probabilistes permettant le respect d’un niveau de signification considéré. Plus exactement, nous proposons une modélisation des statistiques quadratiques et les limites leurs correspondant sur réseau Bayésien. Ceci nous permet de généraliser sous réseau Bayésien des schémas de détection de fautes comme par exemple ceux basés sur l’analyse en composantes principale. Cette modélisation nous permet également de proposer une famille de réseaux Bayésiens permettant de faire de la détection et du diagnostic de façon simultanée, tout en tenant compte d’un rejet de distance. Enfin, nous proposons un cadre probabiliste permettant d’unifier les différents réseaux Bayésiens pouvant être utilisés pour la détection ou le diagnostic de fautes.
Published: 2015

50. New hierarchical joint classification method of SAR-optical multiresolution remote sensing data

Author: Ihsen Hedhli, Gabriele Moser, Serpico, Sebastiano B., Josiane Zerubia, Models of spatio-temporal structure for high-resolution image processing (AYIN), Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Dipartimento di Ingegneria Navale, Elettrica, Elettronica e delle Telecomunicazioni / Dept. of Electrical, Electronic, Telecommunications Engineering and Naval Architecture (DITEN), and Università degli studi di Genova = University of Genoa (UniGe)
Subjects: multiresolution remote sensing images, supervised classification, [STAT.AP]Statistics [stat]/Applications [stat.AP], ComputingMethodologies_PATTERNRECOGNITION, [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST], ComputingMethodologies_IMAGEPROCESSINGANDCOMPUTERVISION, Multisensor, hierarchical Markov random fields
Abstract: International audience; In this paper, we develop a novel classification approach for multiresolution, multisensor (optical and synthetic aperture radar), and/or multiband images. Accurate and time-efficient classification methods are particularly important tools to support rapid and reliable assessment of the ground changes. Given the huge amount and variety of data available currently from last-generation satellite missions , the main difficulty is to develop a classifier that can take benefit of multiband, multiresolution, and multisen-sor input imagery. The proposed method addresses the problem of multisensor fusion of SAR with optical data for classification purposes, and allows input data collected at multiple resolutions and additional multiscale features derived through wavelets to be fused.
Published: 2015

Catalog

Books, media, physical & digital resources

See catalog results

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Search

Search Constraints

Refine your results

Search Limiters

Topic

Publication Year Range

Language

Database

106 results on '"Supervised classification"'

Search Results

Catalog

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources