116 results on '"BASE DE CONNAISSANCES"'
Search Results
2. ChloroKB, a cell metabolism reconstruction of the model plant Arabidopsis thaliana.
- Author
-
Gloaguen, Pauline, Vandenbrouck, Yves, Joyard, Jacques, and Curien, Gilles
- Subjects
- *
CELL metabolism , *METABOLIC models , *PLANT metabolism , *CELL physiology , *WEB-based user interfaces - Abstract
Can we understand how plant cell metabolism really works? An integrated large-scale modelling of plant metabolism predictive model would make possible to analyse the impact of disturbances in environmental conditions on cellular functioning and diversity of plant-made molecules of interest. ChloroKB, a Web application initially developed for exploration of Arabidopsis chloroplast metabolic network now covers Arabidopsis mesophyll cell metabolism. Interconnected metabolic maps show subcellular compartments, metabolites, proteins, complexes, reactions, and transport. Data in ChloroKB have been structured to allow for mathematical modelling and will be used as a reference for modelling work dedicated to a particular issue. [ABSTRACT FROM AUTHOR]
- Published
- 2021
- Full Text
- View/download PDF
3. Description des images numérisées et open data
- Author
-
Kergosien, Eric, Groupe d'Études et de Recherche Interdisciplinaire en Information et COmmunication - ULR 4073 (GERIICO ), Université de Lille, and laboratoire Médiations – Informations – Communication – Arts (MICA, UR 4426 de l’École doctorale Montaigne Humanités)
- Subjects
évaluation ,open data ,acteurs ,thesauri ,indexation ,stakeholders ,[SHS]Humanities and Social Sciences ,images ,thésaurus ,base de connaissances ,open science ,ontology ,image ,science ouverte ,données ouvertes ,ontologie - Abstract
International audience
- Published
- 2023
4. Construction productivity fuzzy knowledge base management system.
- Author
-
Elwakil, Emad and Zayed, Tarek
- Subjects
- *
CONSTRUCTION project management , *PROJECT management , *KNOWLEDGE management , *FUZZY control systems , *CONSTRUCTION industry , *EQUIPMENT & supplies - Abstract
Construction companies need a knowledge management system to collate, share and ultimately apply this knowledge in various projects. One of the most important elements that determine the time estimates of any construction project is productivity. Such projects have a predilection towards uncertainty and therefore require new generation of prediction models that utilizes available historical data. The research presented in this paper develops, using fuzzy approach, a knowledge base to analyze, extract and infer any underlying patterns of the data sets to predict the duration and productivity of a construction process. A six-step protocol has been followed to create this model: ( i) determine which factors affect productivity; ( ii) select those factors that are critical; ( iii) build the fuzzy sets; ( iv) generate the fuzzy rules and models; ( v) develop the fuzzy knowledge base; and ( vi) validate the efficacy and function of these models in predicting the productivity construction process. The fuzzy knowledge base was validated and verified using a case study and the results were satisfactory with 92.00% mean validity. In conclusion, the developed models and system demonstrated the ability of a knowledge base management to predict the patterns and productivity of different construction operations. [ABSTRACT FROM AUTHOR]
- Published
- 2018
- Full Text
- View/download PDF
5. Les évolutions de la base de connaissances « K6 Telecom » pour les études dynamiques d’infrastructures SI
- Author
-
Legendre, Anthony, Carneiro, Humberto, Gey, Maxime, Druet, Jules, and RAGUENET, Manon
- Subjects
Figaro ,Base de connaissances ,[SPI] Engineering Sciences [physics] ,Séquences de défaillance ,Réseaux de télécommunication - Abstract
L'article propose de présenter les évolutions de la base de connaissances "K6 Telecom" [1] développée pour la plateforme KB3. Ce programme, développé en 2020, est une version prototype, qui permet une analyse de la fiabilité et la disponibilité sur de grands réseaux de communication. Cette base de connaissances a évolué à la suite de la réalisation de nouvelles études permettant de prendre en compte des nouveaux comportements présents sur les infrastructures de télécommunication d’EDF. Un cas d’étude illustre une manière d’utiliser la base de connaissances ; à la fin de cet article, les résultats obtenus sont également présentés.
- Published
- 2022
6. Vers une démarche ontologique pour la gestion des bases de données en agroforesterie
- Author
-
Conde Salazar, Raphaël, Botanique et Modélisation de l'Architecture des Plantes et des Végétations (UMR AMAP), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche pour le Développement (IRD [France-Sud])-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), Université de Montpellier (UM), FRA, Isabelle Mougenot, Université de Montpellier, Directrice de thèse, and Alexia Stokes, UMR AMAP, INRAE, Directrice de thèse
- Subjects
[SDV.SA]Life Sciences [q-bio]/Agricultural sciences ,Ontology ,Web semantic ,Ontologie ,Agroforesterie ,[SDV.BV.BOT]Life Sciences [q-bio]/Vegetal Biology/Botanics ,[SDV.BID.SPT]Life Sciences [q-bio]/Biodiversity/Systematics, Phylogenetics and taxonomy ,Knowledge base ,[SDV.EE.ECO]Life Sciences [q-bio]/Ecology, environment/Ecosystems ,Base de connaissances ,[SDE]Environmental Sciences ,[INFO]Computer Science [cs] ,Web sémantique ,Agroforestry ,[SDE.BE]Environmental Sciences/Biodiversity and Ecology - Abstract
In a general context of sustainable development, research on agroforestry takes on its full meaning by making plant-plant interactions intelligible in a potentially degraded environment. For several years now, data from field observations have been acquired in partnership with several categories of stakeholders (in particular foresters, farmers and breeders). It is now a question of opening these data and making them available from the web to other communities. Moreover, studies conducted in agroforestry require systemic approaches in order to better understand, for example, the resilience mechanisms of plants to climate change or soil pollution. It is also necessary to make the data linkable to other data sets related to climate and territories. The double challenge of sharing and linking data in agroforestry brings us closer to what is practiced today within the semantic web with different tools and methods to promote the sharing of open and linked data sources. Semantic web technologies provide standard mechanisms to describe and access resources on the web. The work of this thesis is part of this framework, we reuse standard formats of the semantic web and exploit a range of ontologies both frameworks, domains and terminologies to propose a knowledge model, open and flexible to account for the complexity of data already collected in agroforestry. This model is composed of a domain ontology named "Agroforestry". The importance is given to the publication of perfectly described data by privileging the ability to link these data to data already available on the web (climatic data, soil profiles, data on the functioning of plant communities, etc.). We have also built a terminological ontology dedicated to agroforestry called "AgroforestryVoc". Eventually, this ontology will be dedicated to the linguistic qualification of key concepts shared by the whole community and will be made public on the "AgroPortal" (http://agroportal.lirmm.fr/). The last parts of the thesis work focus on the interpretation of the results obtained from the data interconnection. The "Agroforestry" domain ontology, formalized in OWL 2, is built in such a way as to be able to reason about the integrated data set. The objective is therefore to highlight trends in associations between trees and crops in land use by applying inferential mechanisms on the ontology.; Dans un contexte général de développement durable, les recherches menées autour de l’agroforesterie prennent tout leur sens en rendant intelligibles les interactions plante-plante dans un environnement pouvant être dégradé.Depuis plusieurs années maintenant, des données issues d’observations sur le terrain sont acquises en partenariat avec plusieurs catégories d’acteurs (en particulier des forestiers, agriculteurs et éleveurs). Il s’agit maintenant d’ouvrir ces données et de les rendre disponibles depuis le web à d’autres communautés. De plus, les études menées en agroforesterie nécessitent des approches systémiques pour par exemple mieux comprendre les mécanismes de résilience des plantes face aux changements climatiques ou encore face à la pollution des sols. Il s’agit également de rendre les données liables à d’autres jeux de données relatifs au climat et aux territoires. Le double enjeu de partage et d’interconnexion des données en agroforesterie nous rapproche de ce qu’il se pratique aujourd’hui au sein du web sémantique avec différents outils et méthodes à même de promouvoir la mutualisation de sources de données ouvertes et liées. Les techno! logies du web sémantique fournissent les mécanismes standards pour décrire et accéder aux ressources présentes sur le Web.Le travail de thèse s’inscrit dans ce cadre, nous réutilisons les formats standards du web sémantique et exploitons un éventail d’ontologies à la fois cadres, de domaines et terminologiques afin de proposer un modèle de connaissances, ouvert et flexible à même de rendre compte de la complexité des données déjà collectées en agroforesterie. Ce modèle se compose d’une ontologie de domaine nommée "Agroforestry". L’importance est donnée à la publication de données parfaitement décrites en privilégiant la mise en capacité de lier ces données à des données déjà disponibles sur le web (données climatiques, profils pédologiques, données sur le fonctionnement de communautés végétales, etc.). Nous avons aussi construit une ontologie terminologique dédiée à l’agroforesterie nommée "AgroforestryVoc". A terme, cette ontologie se consacrera à la qualification linguistique des concepts clés partagés par toute la communauté et sera rendue pu! blique sur le portail "AgroPortal" (http://agroportal.lirmm.fr/).Les derniers volets du travail de thèse se concentrent sur l’interprétation des résultats dégagés sur la base de l’interconnexion des données. L’ontologie de domaine "Agroforestry", formalisée enOWL2, est construite de manière à pouvoir raisonner sur l’ensemble des données intégrées. L’objectif est donc de faire ressortir des tendances relatives aux associations entre arbres et plantes cultivées dans l’exploitation des terres par mise en application de mécanismes inférentiels sur l’ontologie.
- Published
- 2021
7. Adaptation au domaine de plongements lexicaux via l'exploitation de corpus et de bases de connaissances spécialisés
- Author
-
El Boukkouri, Hicham, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, Pierre Zweigenbaum, Olivier Ferret, and Thomas Lavergne
- Subjects
Adaptation au domaine ,Knowledge Base ,Medical Domain ,Word Embeddings ,Traitement automatique des langues ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Specialized Domain ,Base de connaissances ,Domaine médical ,Plongements lexicaux ,Domaine spécialisé ,Domain Adaptation ,Natural Language Processing - Abstract
There are, at the basis of most NLP systems, numerical representations that enable the machine to process, interact with and—to some extent—understand human language. These “word embeddings” come in different flavours but can be generally categorised into two distinct groups: on one hand, static embeddings that learn and assign a single definitive representation to each word; and on the other, contextual embeddings that instead learn to generate word representations on the fly, according to a current context. In both cases, training these models requires a large amount of texts. This often leads NLP practitioners to compile and merge texts from multiple sources, often mixing different styles and domains (e.g. encyclopaedias, news articles, scientific articles, etc.) in order to produce corpora that are sufficiently large for training good representations. These so-called “general domain” corpora are today the basis on which most word embeddings are trained, greatly limiting their use in more specific areas. In fact, “specialized domains” like the medical domain usually manifest enough lexical, semantic and stylistic idiosyncrasies (e.g. use of acronyms and technical terms) that general-purpose word embeddings are unable to effectively encode out-of-the-box. In this thesis, we explore how different kinds of resources may be leveraged to train domain-specific representations or further specialise preexisting ones. Specifically, we first investigate how in-domain corpora can be used for this purpose. In particular, we show that both corpus size and domain similarity play an important role in this process and propose a way to leverage a small corpus from the target domain to achieve improved results in low-resource settings. Then, we address the case of BERT-like models and observe that the general-domain vocabularies of these models may not be suited for specialized domains. However, we show evidence that models trained using such vocabularies can be on par with fully specialized systems using in-domain vocabularies—which leads us to accept re-training general domain models as an effective approach for constructing domain-specific systems. We also propose CharacterBERT, a variant of BERT that is able to produce word-level open-vocabulary representations by consulting a word's characters. We show evidence that this architecture leads to improved performance in the medical domain while being more robust to misspellings. Finally, we investigate how external resources in the form of knowledge bases may be leveraged to specialise existing representations. In this context, we propose a simple approach that consists in constructing dense representations of these knowledge bases then combining these knowledge vectors with the target word embeddings. We generalise this approach and propose Knowledge Injection Modules, small neural layers that incorporate external representations into the hidden states of a Transformer-based model. Overall, we show that these approaches can lead to improved results, however, we intuit that this final performance ultimately depends on whether the knowledge that is relevant to the target task is available in the input resource. All in all, our work shows evidence that both in-domain corpora and knowledge may be used to construct better word embeddings for specialized domains. In order to facilitate future research on similar topics, we open-source our code and share pre-trained models whenever appropriate.; Il existe, à la base de la plupart des systèmes de TAL, des représentations numériques appelées « plongements lexicaux » qui permettent à la machine de traiter, d'interagir avec et, dans une certaine mesure, de comprendre le langage humain. Ces plongements lexicaux nécessitent une quantité importante de textes afin d'être entraînés correctement, ce qui conduit souvent les praticiens du TAL à collecter et fusionner des textes provenant de sources multiples, mélangeant souvent différents styles et domaines (par exemple, des encyclopédies, des articles de presse, des articles scientifiques, etc.). Ces corpus dits du « domaine général » sont aujourd'hui la base sur laquelle s'entraînent la plupart des plongements lexicaux, limitant fortement leur utilisation dans des domaines plus spécifiques. En effet, les « domaines spécialisés » comme le domaine médical manifestent généralement assez de spécificités lexicales, sémantiques et stylistiques (par exemple, l'utilisation d'acronymes et de termes techniques) pour que les plongements lexicaux généraux ne soient pas en mesure de les représenter efficacement. Dans le cadre de cette thèse, nous explorons comment différents types de ressources peuvent être exploités afin soit d’entraîner de nouveaux plongements spécialisés, soit de spécialiser davantage des représentations préexistantes. Plus précisément, nous étudions d'abord comment des corpus de textes peuvent être utilisés à cette fin. En particulier, nous montrons que la taille du corpus ainsi que son degré de similarité au domaine d’intérêt jouent un rôle important dans ce processus puis proposons un moyen de tirer parti d'un petit corpus du domaine cible afin d’obtenir de meilleurs résultats dans des contextes à faibles ressources. Ensuite, nous abordons le cas des modèles de type BERT et observons que les vocabulaires généraux de ces modèles conviennent mal aux domaines spécialisés. Cependant, nous montrons des résultats indiquant que des modèles formés à l'aide de tels vocabulaires peuvent néanmoins être comparables à des systèmes entièrement spécialisés et utilisant des vocabulaires du domaine du domaine, ce qui nous amène à la conclusion que le ré-entraînement de modèles du domaine général est une approche tout à fait efficace pour construire des systèmes spécialisés. Nous proposons également CharacterBERT, une variante de BERT capable de produire des représentations de mots entiers en vocabulaire ouvert via la consultation des caractères de ces mots. Nous montrons des résultats indiquant que cette architecture conduit à une amélioration des performances dans le domaine médical tout en étant plus robuste aux fautes d'orthographe. Enfin, nous étudions comment des ressources externes sous forme de bases de connaissances et ontologies du domaine peuvent être exploitées pour spécialiser des représentations de mots préexistantes. Dans ce cadre, nous proposons une approche simple qui consiste à construire des représentations denses de bases de connaissances puis à combiner ces ``vecteurs de connaissances’’ avec les plongements lexicaux cibles. Nous généralisons cette approche et proposons également des Modules d'Injection de Connaissances, de petites couches neuronales permettant l'intégration de représentations de connaissances externes au sein des couches cachées de modèles à base de Transformers. Globalement, nous montrons que ces approches peuvent conduire à de meilleurs résultats, cependant, nous avons l'intuition que ces performances finales dépendent en fin de compte de la disponibilité de connaissances pertinentes pour la tâche cible au sein des bases de connaissances considérées. Dans l'ensemble, notre travail montre que les corpus et bases de connaissances du domaine peuvent être utilisés pour construire de meilleurs plongements lexicaux en domaine spécialisé. Enfin, afin de faciliter les recherches futures sur des sujets similaires, nous publions notre code et partageons autant que possible nos modèles pré-entraînés.
- Published
- 2021
8. Extraction générique de connaissances à partir de données textuelles et mesure de la performance des systèmes d’extraction de relations dans un contexte non supervisé
- Author
-
Yohann Chasseray, Anne-Marie Barthe-Delanoë, Jean-Marc Le Lann, Stéphane Negny, Laboratoire de Génie Chimique (LGC), Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées, Centre Génie Industriel (CGI), IMT École nationale supérieure des Mines d'Albi-Carmaux (IMT Mines Albi), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), and IMT Mines Albi, IMT Mines Albi
- Subjects
[SPI]Engineering Sciences [physics] ,Knowledge extraction ,Knowledge bases ,Extraction de connaissances ,[SPI] Engineering Sciences [physics] ,Base de connaissances ,Natural language processing ,Performance evaluation ,Ontologies ,Mesure de performance ,Traitement automatique du langage - Abstract
Among the incoming challenges in the industrial domain and in the monitoring of industrial systems, the aggregation, synthesis and management of knowledge through ontological structures occupy an essential place. Existing knowledge extraction systems often use a supervised approach which rely on labelled data for which the annotation process is fastidious. This paper presents an unsupervised self-feeding rule-based approach for domain-independent ontology population from textual data. Moreover, the evaluation of such systems, performing knowledge extraction using natural language processing methods requires the use of performance indicators. The indicators usually used in such evaluations have limitations in the specific context of knowledge extraction for unsupervised ontology population. Thus, the definition of new evaluation methods becomes a need arising from the singularity of the harvested data, especially when these are unlabelled. Hence, this article also proposes a method for measuring performance in a context where reference data and extracted data do not overlap optimally. The proposed evaluation method is based on the exploitation of data that serve as a reference but are not specifically linked to the data used for extraction, which makes it an original evaluation method., Parmi les défis à venir dans le monde de l’industrie et dans le pilotage des systèmes industriels, l’agrégation, la synthèse et la gestion des connaissances au travers de structures ontologiques occupent une place primordiale. Beaucoup des systèmes d’extraction de connaissances actuels adoptent une approche supervisée, qui se base sur des données labellisées dont le processus d’annotation est long et fastidieux. Cet article présente une approche par les règles non supervisée, auto-alimentée et indépendante du domaine pour la population d’ontologie à partir de données textuelles. Par ailleurs, l’évaluation de tels systèmes, réalisant de l’extraction de connaissances par les méthodes de traitement automatique du langage, requiert l’utilisation d’indices de performance. Dans le cadre particulier de la population d’ontologie non supervisée, les indices habituellement utilisés pour réaliser ces évaluations présentent des limites dues notamment à l’absence de données annotées. Cet article propose donc également une méthode de mesure des performances dans un contexte où les données de référence et les données extraites ne se recouvrent intrinsèquement pas de manière optimale. Le mode d’évaluation proposé s’appuie sur l’exploitation de données faisant office de références mais qui ne sont pas spécifiquement liées aux données sur lesquelles est réalisée l’extraction, ce qui en fait sa particularité.
- Published
- 2021
9. Coupler syntaxe et sémantique dans une même base de connaissances linguistiques
- Author
-
Prost, Jean-Philippe, Laboratoire Parole et Langage (LPL), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), and Laboratoire Parole et Langage – Université d’Aix-Marseille
- Subjects
JeuxDeMots ,Sémantique Knowledge graph ,Base de connaissances ,Grammaires de Propriétés ,[INFO]Computer Science [cs] ,Syntax ,Réseau linguistique ,Property Grammar ,language network ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Syntaxe ,Semantics ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
Cet article soutient qu'une approche holistique de la modélisation computationnelle de la connaissance linguistique faciliterait le traitement automatique du langage naturel. Nous nous concentrons sur la question de la combinaision homogène de sources hétérogènes de connaissances linguistiques telles que syntaxe et sémantique lexicale au sein d'une unique structure de graphe. Nous présentons une architecture de réseau linguistique multi-couches qui aborde le problème. Nous proposons en particulier de connecter une couche de grammaire par dessus un réseau lexico-sémantique existant pour le français. La solution que nous présentons s'appuie sur les Grammaires de Propriétés pour modéliser la couche de grammaire comme une sorte de réseau de contraintes. Le réseau résultant doit permettre le traitement intégré et simultané des connaissances syntaxiques et sémantiques, contrairement à leur traitement séquentiel dans une architecture habituelle en cascade.
- Published
- 2021
10. Les technologies du Web pour la valorisation d’un patrimoine industriel textile en mouvement dans les Hauts-de-France
- Author
-
Kergosien, Eric, Wybo, Mathilde, Groupe d'Études et de Recherche Interdisciplinaire en Information et COmmunication - ULR 4073 (GERIICO ), Université de Lille, Institut de Recherches Historiques du Septentrion (IRHiS) - UMR 8529 (IRHiS), Centre National de la Recherche Scientifique (CNRS)-Université de Lille, Ministère de la culture, Université Lille, MESHS, and Université de Lille-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,patrimoine industriel textile ,recherche collaborative ,Mémoire orale ,base de connaissances ,histoire ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,[INFO.INFO-WB]Computer Science [cs]/Web ,données ouvertes ,ComputingMilieux_MISCELLANEOUS ,cartographie des acteurs - Abstract
National audience; Une question sociale importante dans le domaine du patrimoine culturel est liée à la collecte, l'analyse, la publication et la mise en valeur de la mémoire des acteurs du domaine, soit parlée ou écrite. La formalisation de l'information sur le patrimoine culturel constitue un véritable défi. Le volume et la diversité des ressources posent de nombreux problèmes tels que l’indexation des données, leur structuration et leur valorisation au sein d'une même base de connaissances. La plupart des tentatives de résolution des problèmes d'interopérabilité sémantique se concentrent sur la standardisation et le développement de structures communes telles que FRBR, FRBRoo, CIDOC CRM, etc. Parmi ces modèles, le CIDOC estune référence conceptuelle, modèle spécialement conçu pour la modélisation du patrimoine culturel. Ce modèle offre en effet un schéma commun de métadonnées rendant les concepts compréhensibles et interopérables.Afin d'aider les experts du domaine à produire et fournir des contenus numériques, nous adoptons une méthodologie en trois étapes qui permet de construire semi-automatiquement une représentation sémantique d'un domaine étudié à partir de documents hétérogènes. Tout d'abord, nous recueillons et formalisons l'historique par le biais d'entretiens avec les acteurs du domaine. Deuxièmement, notre système opère l'identification et l'extraction d'informations relatives au patrimoine culturel industriel à partir de milliers de documents textuels hétérogènes collectés auprès de ces acteurs (interviews, articles de journaux, etc.). L'approche proposée combine la projection lexicale avec des méthodes de fouille de textes pour améliorer l'identification de l'information pertinente. Enfin, nous présentons une première version de l'ontologie construite automatiquement au format OWL en utilisant le modèle CIDOC CRM comme base conceptuelle, pour fusionner toutes les informations extraites. Les expériences sont menées sur un corpus relatif au patrimoine industriel textile collecté grâce au projet DENIM.
- Published
- 2021
11. Modification d'une modèle de liage d'entités nommées end-to-end par l'ajout d'embeddings contextuels
- Author
-
Carpentier, Valentin, LIMSI, Denis, Pascal, Grabar, Natalia, Fraisse, Amel, Cardon, Rémi, Jacquemin, Bernard, Kergosien, Eric, and Balvet, Antonio
- Subjects
entité nommée ,base de connaissances ,vecteurs sémantiques ,mention ,approche de bout en bout ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
International audience; Cet article présente les expériences effectuées sur un système de liage d’entités nommées. Cette tâche se découpe en deux principales parties que sont la détection de mentions méritant d’être liées à la base de connaissance et la désambiguïsation qui permet de sélectionner l’entité finale à lier à chaque mention. Deux approches existent pour résoudre cette tâche. Il y a celle de désambiguïsation seule et celle end-to-end qui effectue les deux sous-tâches simultanément. Nous nous sommes intéressés au modèle end-to-end atteignant l’état de l’art. Le cœur de ces expériences était d’exploiter des embeddings contextuels afin d’améliorer les performances. Trois approches ont été testées afin d’intégrer ces embeddings et de remplacer les embeddings de mots. Les différentes versions atteignent au mieux l’état de l’art. L’article présente quelques pistes déjà étudiées expliquant les raisons pour lesquelles les expériences testées ne dépassent pas le modèle initial et ouvrent des possibilités d’amélioration.
- Published
- 2021
12. Intérêt de l’outil K6 2.0 pour les études de Sûreté de Fonctionnement des réseaux électriques critiques
- Author
-
Anthony Legendre, Jules Druet, Théo Serru, Romain Laguilliez, Roland Donat, EDF R&D (EDF R&D), EDF (EDF), Polytech' Angers, Université d'Angers, and EdgeMind
- Subjects
[SPI]Engineering Sciences [physics] ,Base de connaissances ,Séquences de défaillance ,Graphe de Markov ,MBSA ,Réseaux électriques - Abstract
International audience; Cet article présente la nouvelle base de connaissances K6 2.0 développée pour la plate-forme KB3 qui est utilisée pour réaliser des études de sûreté de fonctionnement des réseaux électriques. Ce programme d’EDF R&D développé en collaboration avec la société EdgeMind, est une version consolidée de la version initiale K6. Une étude d’un système critique de centrale nucléaire utilisant la nouvelle base de connaissance ainsi que les résultats pouvant être obtenus sur les indicateurs de fiabilité, de disponibilité et des séquences de défaillance sont présentés à la fin de cet article.
- Published
- 2020
13. What kind of knowledge sharing network for a consultant profile?
- Author
-
Monnier-Senicourt, Laetitia
- Abstract
Copyright of Annals of Telecommunications is the property of Springer Nature and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2007
- Full Text
- View/download PDF
14. AgroLD: un graphe de connaissances pour la caractérisation des mécanismes moléculaires complexes impactant le phénome des plantes
- Author
-
Larmande, Pierre, Tagny Ngompé, Gildas, Manuel Ruiz, Diversité, adaptation, développement des plantes (UMR DIADE), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche pour le Développement (IRD [France-Sud]), Institut de Biologie Computationnelle (IBC), Institut National de la Recherche Agronomique (INRA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), AFIA, Nathalie Hernandez, Hernandez, Nathalie, Institut de Recherche pour le Développement (IRD [France-Sud])-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad), and Université de Montpellier (UM)-Institut National de la Recherche Agronomique (INRA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,Phénome ,Agronomie ,Base de connaissances ,Web sémantique ,Génomique fonctionnelle ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
National audience; La compréhension des interactions génotype-phénotype est un des axes les plus importants de la recherche en agronomie dont l'un des objectifs est d'accélérer la reproduction des caractères importants pour la production agricole. Or ces interactions sont complexes à identifier car elles s'expriment à différentes échelles moléculaires dans la plante et subissent de fortes influences de la part des facteurs environnemen-taux. Les technologies d'analyse haut-débit ne permettent de capturer que partiellement cette dynamique. Même si ces technologies sont de plus en plus performantes dans l'acquisition de données, notre connais-sance du système reste encore parcellaire pour pouvoir comprendre les relations complexes existant entre les différents éléments moléculaires responsables de l'expression du phénome-ensemble des phénotypes observés pour un individu-. Cet objectif ne peut être atteint qu'en intégrant des informations de différents niveaux dans un modèle intégrateur utilisant une approche systémique afin de comprendre le fonctionnement réel d'un système biologique. Aujourd'hui, le Web sémantique propose des technologies pour l'intégration de données hétérogènes et leur transformation en connaissances explicites grâce aux ontologies. Nous avons développé AgroLD (Venkatesan et al., 2018) (Agronomic Linked Data-www.agrold.org), une base de connaissances reposant sur les technologies du Web sémantique et exploitant des ontologies du domaine biologique, afin d'intégrer des données issues de plusieurs espèces de plantes présentant un intérêt important pour la communauté scientifique, comme par exemple le riz, le blé et arabidopsis. Nous présentons les résultats du projet, qui portait initialement sur la génomique, la protéomique et la phénomique. AgroLD est aujourd'hui une base de plus de 100 millions de triplets créée à partir de plus de 50 jeux de données provenant d'une dizaine de sources de données, telles que Gramene (Tello-Ruiz et al., 2018) et TropGeneDB (Hamelin et al., 2012). Par ailleurs, nous avons utilisé une dizaine d'ontologies du domaine biologique, telles que Gene Ontology (The Gene Ontology Consortium, 2014) et Plant Ontology (Plant & Consortium, 2002) pour annoter et intégrer ces ressources. Pour cette phase, chaque jeu de données a été transformé à partir de sources sélectionnées et annotées sémantiquement en réutilisant les champs textuels correspondant avec des termes d'ontologies lorsqu'ils ont été fournis par la source d'origine. De plus, nous avons utilisé les services Web d'AgroPortal (Jonquet et al., 2018) pour annoter sémantiquement des éléments supplémentaires tels que par exemple, les URIs correspondant à la taxonomie des espèces ou des éléments d'anatomie. Dans ces cas, nous avons généré des propriétés supplémentaires à partir des ontologies correspondantes, ajoutant ainsi 22% de triplets supplémentaires qui ont été validés manuellement. L'objectif d'AgroLD est d'offrir une plate-forme de connaissances spécifiques du domaine agronomique afin de répondre à des questions biologiques complexes. De telles questions peuvent concerner le rôle de gènes spécifiques dans les mécanismes de résistance aux maladies des plantes ou de caractères de production identifiés à partir des analyses GWAS. Afin de rendre AgroLD accessible par un plus grand nombre d'uti-lisateurs, nous avons également développé une application Web proposant plusieurs interfaces de requêtes. Tout d'abord une interface simple qui permet aux utilisateurs de rechercher par mots-clés sur l'ensemble des valeurs de la base et ainsi de parcourir le contenu d'AgroLD. Puis une interface de recherche avancée qui permet de combiner du texte libre et des filtres à facettes ainsi que des services Web externes proposant ainsi une interface d'agrégation de données distribuées. AgroLD possède également une interface de visualisation des graphes qu'il est possible de configurer pour mettre en valeur certains types de relations. Finalement, un éditeur SPARQL propose un environnement interactif pour formuler des requêtes et manipuler des ré-sultats. Actuellement, de nouveaux jeux de données sont en cours d'intégration. Ils portent sur les réseaux d'interaction protéine-protéine, les facteurs de transcription et réseaux de co-expression afin d'étendre les connaissances sur les mécanismes moléculaires. De nombreux développements sont également réalisés au niveau des interfaces de requêtes, notamment au niveau de la visualisation des graphes afin de fournir des outils plus dynamiques, interactifs et contextualisés. Enfin, une attention particulière est portée sur la qualité des données intégrées. Des méthodes de liage et de machine learning sont développées pour rechercher des liens et des ressources similaires dans la base de connaissances ou dans des ressources externes.
- Published
- 2019
15. Représentativité des bases de connaissances avec la loi de Benford généralisée
- Author
-
Soulet, Arnaud, Giacometti, Arnaud, Markhoff, Béatrice, Suchanek, Fabian, Laboratoire d'Informatique Fondamentale et Appliquée de Tours (LIFAT), Université de Tours (UT)-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS), AFIA, Nathalie Hernandez, Hernandez, Nathalie, Centre National de la Recherche Scientifique (CNRS)-Université de Tours-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), and Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,loi de Benford généralisée ,représentativité ,base de connaissances ,complétude ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
National audience; L’un des succès incontestés du Web sémantique est la construction d’énormes bases de connais-sances. Plusieurs travaux récents utilisent ces bases de connaissances pour découvrir de nouvelles connais-sances en calculant des statistiques ou en déduisant des règles à partir des données. Par exemple, selonDBpedia, 99% des villes du Yémen ont une population de plus de 1 000 habitants. Nous pourrions donc enconclure que les villes yéménites ont généralement plus de 1 000 habitants. Mais est-ce vrai dans le monderéel ? Naturellement, la fiabilité de cette affirmation dépend de la qualité de la base de connaissances, à savoirde l’exactitude des faits et de leur complétude. Il est bien connu que les bases de connaissances sont trèsincomplètes. Ce n’est généralement pas un problème en statistique et en apprentissage automatique, où il estrare d’avoir une description complète de l’univers à étudier. La plupart des approches fonctionnent sur unéchantillon de données. Dans de tels cas, il est crucial que cet échantillon soitreprésentatifde tout l’univers(ou du moins que le biais de cet échantillon soit connu). Par exemple, le fait que la base de connaissances necontienne que la moitié des villes du Yémen ne pose pas de problème si leur répartition entre les différentestailles correspond à peu près à la répartition du monde réel.Malheureusement, il n’est pas évident a priori de savoir si une base de connaissances est représentative dumonde réel. Par exemple, plusieurs bases de connaissances volumineuses, telles que DBpedia ou YAGO,extraient leurs données depuis Wikipedia. Wikipedia, à son tour, est un ensemble de données issues d’uneproduction participative (crowdsourcing). Dans le crowdsourcing, les contributeurs ont tendance à indiquerles informations qui les intéressent le plus. En conséquence, Wikipedia présente des biais culturels. Demême, Wikidata est le résultat du crowdsourcing et peut présenter des biais similaires. En particulier, il estprobable que des pays tels que le Yémen soient moins bien couverts que des pays tels que la France, en raisonde la population des contributeurs. Même si les informations contenues dans ces bases de connaissancessont correctes, elles ne sont pas nécessairement représentatives. Si nous savions à quel point une base deconnaissances est représentative, nous pourrions alors savoir s’il est raisonnable ou non de l’exploiter pourcalculer des statistiques. Une telle indication devrait, par exemple, nous empêcher de tirer des conclusionshâtives sur la répartition de la population dans les villes du Yémen. Mais, comment estimer si une base deconnaissances est représentative ou non ?Souletet al.(2018) proposent d’étudier la représentativité des bases de connaissances à l’aide de la loi deBenford généralisée. Cette loi paramétrée indique la distribution de fréquence attendue par le premier chiffresignificatif dans de nombreux jeux de données numériques du monde réel. Nous utilisons cette loi commeréférence pour estimer la quantité de données manquante dans la base de connaissances. Plus précisément,nous présentons une méthode pour calculer une borne inférieure pour le nombre de faits manquants pourqu’une relation soit représentative. Cette méthode fonctionne dans un contexte supervisé (où la relation estconnue pour satisfaire la loi de Benford généralisée) et dans un contexte non supervisé (où le paramètrede la loi doit être déduit des données). Nous prouvons que, sous certaines hypothèses, les bornes inférieurescalculées sont correctes aussi bien pour le contexte supervisé que non supervisé. Nous montrons avec des ex-périences sur de véritables bases de connaissances que notre méthode est efficace à la fois pour les contextessupervisés et non supeervisés. La méthode non supervisée, en particulier, nous a permis d’auditer 63% desfaits de DBpedia.
- Published
- 2019
16. Navigation conceptuelle dans une base de connaissances sur l'usage des plantes en santé animale et végétale
- Author
-
Priscilla Keip, Amirouche Ouzerdine, Marianne Huchard, Pierre Silvie, Pierre Martin, Agroécologie et Intensification Durables des cultures annuelles (UPR AIDA), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad), Models And Reuse Engineering, Languages (MAREL), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), PIA #Digitag, Laure Soulier, and ANR-16-CONV-0004,DIGITAG,Institut Convergences en Agriculture Numérique(2016)
- Subjects
Knowledge base ,Analyse de concepts formels ,Ontology ,Base de connaissances ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,Formal concept analysis ,Ontologie ,Exploration ,[SDE.BE]Environmental Sciences/Biodiversity and Ecology ,Classification ,Navigation ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
National audience; More and more knowledge bases are being developed in the field of environment and life. The challenge of this work is to make knowledge accessible to users with various concerns. Our case study deals with a knowledge base containing 30 000 descriptions of plant use in Africa, that are alternatives to synthetic pesticide and antimicrobial. In this paper, we propose a system architecture to explore and navigate within knowledge using formal concept analysis and present a new algorithm that reveals a new plant use in a context different from the initial use.; De plus en plus de bases de connaissances sont développées dans le domaine de l'envi-ronnement et du vivant. L'enjeu de ce travail est de rendre ces connaissances accessibles à des utilisateurs ayant des préoccupations variées. Notre cas d'étude concerne une base de connais-sances rassemblant environ 30 000 descriptions d'usage de plantes en Afrique, à effet pesticide, antimicrobien et antiparasitaire de synthèse. Dans cet article, nous proposons une architecture de système pour explorer et naviguer dans les connaissances grâce à l'analyse de concepts for-mels et proposons un nouvel algorithme faisant émerger un nouveau contexte d'emploi d'une plante dans un cas d'utilisation.
- Published
- 2019
17. Vers une exploitation efficace de grandes bases de connaissances par des graphes de contexte
- Author
-
Mimouni, Nada, Moissinac, Jean-Claude, Moissinac, Jean-Claude, Hernandez, Nathalie, Nathalie Hernandez, Laboratoire d'Informatique de Paris-Nord (LIPN), Université Paris 13 (UP13)-Institut Galilée-Université Sorbonne Paris Cité (USPC)-Centre National de la Recherche Scientifique (CNRS), Télécom ParisTech, and AFIA
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,Graphe de contexte ,DBPedia ,Base Joconde ,Base de connaissances ,[INFO]Computer Science [cs] ,[INFO] Computer Science [cs] ,Similarité ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
International audience; Un problème lié à l'exploitation de graphe de connaissances, en particulier lors de traitements avec des méthodes d'apprentissage automatique, est le passage à l'échelle. Nous proposons ici une méthode pour réduire significativement la taille des graphes utilisés pour se focaliser sur une partie utile dans un contexte d'usage donné. Nous définissons ainsi la notion de graphe de contexte comme un extrait d'une ou plusieurs bases de connaissances généralistes (tels que DBpedia, Wikidata, Yago) qui contient l'ensemble d'informations pertinentes pour un domaine spécifique tout en préservant les propriétés du graphe d'origine. Nous validons l'approche sur un extrait de DBpedia pour des entités en lien avec le projet Data&Musée et le jeu de référence KORE selon deux aspects : la couverture du graphe de contexte et la préservation de la similarité entre ses entités.
- Published
- 2019
18. Recherche d'information entre des bases de connaissances
- Author
-
Dupuy, Jean and Dupuy, Jean
- Subjects
Knowledge base ,Recommandation ,Plongement de mots ,Plongement de documents ,recherche d’information ,Word Embedding ,base de connaissances ,Information retrieval ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,[INFO.INFO-IR] Computer Science [cs]/Information Retrieval [cs.IR] ,Document Embedding - Abstract
In this article we will focus on content recommendation, especially in knowledge bases. The Ph.D subject introduced focuses on multiscale text embedding (sentences, paragraphs and whole documents), and recommendation build on top of those representations. Recommendations could be done on a knowledge base or between different ones. After a short presentation of our corpus and a state of the art about current embedding methods we will discuss about the relevance of embedding graph structure, as well as future outlook of our work and its contribution to IR, Dans cet article nous nous intéresserons à la recommandation de contenus, et plus particulièrement au sein de bases de connaissances. Le sujet de thèse présenté ici se focalise sur la représentation de documents textuels en prenant en compte plusieurs échelles (phrase, paragraphe et document entier) et l'exploitation de celle-ci par un système de recommandation, soit au sein de la même base de connaissances, soit entre des bases différentes. Après un détail du corpus considéré pour ces travaux et un état de l'art sur les méthodes d'embedding actuelles, nous discuterons de l'utilité de l'exploitation de la structure du graphe du corpus pour la représentation, puis des perspectives du sujet et de sa contribution à la recherche d'information.
- Published
- 2019
- Full Text
- View/download PDF
19. Fast and reliable inference of semantic clusters
- Author
-
Sébastien Harispe, Sylvie Ranwez, Vincent Ranwez, Nicolas Fiorini, Jacky Montmain, Laboratoire de Génie Informatique et Ingénierie de Production (LGI2P), IMT - MINES ALES (IMT - MINES ALES), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Amélioration génétique et adaptation des plantes méditerranéennes et tropicales (UMR AGAP), Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)-Institut National de la Recherche Agronomique (INRA)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro), Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), AVieSan national program (French Alliance nationale pour les sciences de la Vie et de la Sant), French Agence Nationale de la Recherche : ANR-10-BINF-01 Ancestrome, Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro), Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro), and ANR-10-BINF-0001,ANCESTROME,Approche de phylogénie intégrative pour la reconstruction de génomes ancestraux(2010)
- Subjects
0301 basic medicine ,Information Systems and Management ,semantic indexing ,Computer science ,méthode d'indexation ,WordNet ,Semantic data model ,complexity analysis ,[MATH.MATH-GR]Mathematics [math]/Group Theory [math.GR] ,Management Information Systems ,03 medical and health sciences ,Annotation ,intelligence artificielle ,Semantic similarity ,Artificial Intelligence ,base de connaissances ,Cluster analysis ,automation ,cluster labeling ,Information retrieval ,donnée informatique ,business.industry ,Search engine indexing ,Similarity matrix ,donnée sémantique ,Hierarchical clustering ,030104 developmental biology ,Knowledge base ,Distance matrix ,Cluster labeling ,knowledge base ,automatisation ,business ,Software ,clustering ,neighbor joining ,semantic data - Abstract
AGAP : équipe GE2pop; Document Indexing is but not limited to summarizing document contents with a small set of keywords or concepts of a knowledge base. Such a compact representation of document contents eases their use in numerous processes such as content-based information retrieval, corpus-mining and classification. An important effort has been devoted in recent years to (partly) automate semantic indexing, i.e. associating concepts to documents, leading to the availability of large corpora of semantically indexed documents. In this paper we introduce a method that hierarchically clusters documents based on their semantic indices while providing the proposed clusters with semantic labels. Our approach follows a neighbor joining strategy. Starting from a distance matrix reflecting the semantic similarity of documents, it iteratively se- lects the two closest clusters to merge them in a larger one. The similarity matrix is then updated. This is usually done by combining similarity of the two merged clusters, e.g. using the average similarity. We propose in this paper an alternative approach where the new cluster is first semantically annotated and the similarity matrix is then updated using the semantic similarity of this new annotation with those of the remaining clusters. The hierarchical clustering so obtained is a binary tree with branch lengths that convey semantic distances of clusters. It is then post-processed by using the branch lengths to keep only the most relevant clusters. Such a tool has numerous practical applications as it automates the organi- zation of documents in meaningful clusters (e.g. papers indexed by MeSH terms, bookmarks or pictures indexed by WordNet) which is a tedious everyday task for many people. We assess the quality of the proposed methods using a specific benchmark of annotated clusters of bookmarks that were built man- ually. Each dataset of this benchmark has been clustered independently by several users. Remarkably, the clusters automatically built by our method are congruent with the clusters proposed by experts. All resources of this work, including source code, jar file, benchmark files and results are available at this address: http://sc.nicolasfiorini.info .
- Published
- 2016
- Full Text
- View/download PDF
20. Une approche simplifiée de l’annotation sémantique d’un corpus spécialisé à l’aide de ressources externes
- Author
-
Ballu, Victor, Institut national des techniques de la documentation (INTD-CNAM), Conservatoire National des Arts et Métiers [CNAM] (CNAM), INTD-CNAM-Institut national des techniques de la documentation, and Michel Bera
- Subjects
Modèle ,Base de connaissances ,Concept ,Représentation ,Annotation sémantique ,Ontologie ,[SHS.INFO.DOCU]Humanities and Social Sciences/Library and information sciences/domain_shs.info.docu ,Recherche d'information ,Méthode ,Web sémantique ,Graph of Words ,Indexation - Abstract
L’auteur présente dans ce mémoire une méthode s’inspirant des nombreux concepts de représentation existants pour donner du sens aux documents avec un traitement limité et simplifié, mais gardant une efficacité suffisante pour la majorité des usages. Ceci est lustré à travers un exercice de recherche de document. Dans un premier temps on rappelle les différents enjeux de la création de données sémantiques en détaillant un peu plus particulièrement la recherche d’information. Puis dans le second chapitre, sont présentées les manières classiques de représenter sémantiquement des documents, en mettant l’accent sur les ontologies ainsi que les graphes de mots. Une grande partie de ces concepts sont repris dans la méthode proposée. La méthodologie proposée par l’auteur est présentée ainsi que les résultats de l’expérimentation dans une seconde partie du mémoire.
- Published
- 2018
21. Endogenous production of deductive rules in a lexical-semantic network
- Author
-
Lafourcade, Mathieu, Joubert, Alain, Exploration et exploitation de données textuelles (TEXTE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), and Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)
- Subjects
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,inference ,lexical-semantic network ,base de connaissances ,knowledge base ,réseau lexico-sémantique ,rule discovery ,inférence ,découverte de règles ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
International audience; Endogenous production of deductive rules in a lexical-semantic network With a lexical-semantic network, it is possible to discover rule inductively from known facts. These rules are instrumental in reducing missing information in the network. In order to minimize emergence of relations that could be erroneous, we approached the question of polysemy and a filtering on rules presenting exceptions is realized.; A partir d'un réseau lexico-sémantique, il est possible de générer des règles de façon inductive à partir des faits présents. Ces règles permettent de densifier le réseau et d'en réduire les silences. Afin de minimiser l'émergence de relations qui pourraient être erronées, la question de la polysémie est abordée et un filtrage sur les règles présentant des exceptions est réalisé.
- Published
- 2018
22. Si beaucoup d'oiseaux volent, peut-on en déduire que tous les oiseaux volent ? Production endogène de règles déductives dans un réseau lexico-sémantique
- Author
-
Lafourcade, Mathieu, Joubert, Alain, Exploration et exploitation de données textuelles (TEXTE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), and Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)
- Subjects
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,inference ,lexical-semantic network ,base de connaissances ,knowledge base ,réseau lexico-sémantique ,rule discovery ,inférence ,découverte de règles ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
International audience; Endogenous production of deductive rules in a lexical-semantic network With a lexical-semantic network, it is possible to discover rule inductively from known facts. These rules are instrumental in reducing missing information in the network. In order to minimize emergence of relations that could be erroneous, we approached the question of polysemy and a filtering on rules presenting exceptions is realized.; A partir d'un réseau lexico-sémantique, il est possible de générer des règles de façon inductive à partir des faits présents. Ces règles permettent de densifier le réseau et d'en réduire les silences. Afin de minimiser l'émergence de relations qui pourraient être erronées, la question de la polysémie est abordée et un filtrage sur les règles présentant des exceptions est réalisé.
- Published
- 2018
23. WikiGames : une plateforme de jeux dédiée à la validation d’une base de connaissances produite à partir de techniques d’extraction d’information ouverte
- Author
-
Forand, Kevin and Langlais, Philippe
- Subjects
Knowledge base ,Jeux ,Games with a purpose ,Base de connaissances ,Natural language processing ,Machine learning ,Apprentissage automatique ,Traitement automatique des langues naturelles - Abstract
L’extraction d’information ouverte permet la création de larges collections de triplets relationnels à partir de corpus de textes non structurés. Ces larges collections de triplets extraits contiennent souvent une grande quantité de triplets bruités n’apportant aucune information utile. Ces collections peuvent atteindre des tailles rendant la validation manuelle trop longue pour être réalisées par un petit groupe de personnes en un temps convenable et il serait dans bien des cas trop dispendieux pour ces équipes d’engager le personnel nécessaire pour cette tâche. L’utilisation de jeux à des fins de production participative a permis, lors de tâches similaires, de recueillir un grand ensemble de bénévoles. Nous nous sommes donc intéressés à inférer, à partir d’une de ces collections de triplets bruités qui fut précédemment générée à partir de techniques d’extraction d’information ouverte, un ensemble de connaissances potentiellement utiles et pertinentes et avons ensuite amorcé la validation de cette base de connaissances par l’intermédiaire d’une plateforme de jeux., Open information extraction techniques can generate a large amount of relation triplets from unstructured corpus of texts. These large collections of triplets often contain a good portion of noisy triplets that brings little to no usable information. These collections of triplets can become too large to be manually validated by most small teams in a reasonable amount of time and hiring the number of validators required for such task would be too costly for most teams. The use of games as a crowdsourcing tool has shown great success in acquiring a large pool of volunteer for the realization of similar tasks. We have therefore looked into the extraction of a set of useful knowledge from a rather large and noisy relation triplets collection that was previously extracted using an open information extraction tool. We have then started the process of validating the resulting knowledge base with the help of a games with a purpose platform.
- Published
- 2018
24. Représentation et simulation de projets de construction entachés d’incertitudes en utilisant des modèles relationnels probabilistes
- Author
-
Tran, Thi Thuy Phuong, Institut de Mécanique et d'Ingénierie de Bordeaux (I2M), Institut National de la Recherche Agronomique (INRA)-Université de Bordeaux (UB)-École Nationale Supérieure d'Arts et Métiers (ENSAM), Arts et Métiers Sciences et Technologies, HESAM Université (HESAM)-HESAM Université (HESAM)-Arts et Métiers Sciences et Technologies, HESAM Université (HESAM)-HESAM Université (HESAM)-Institut Polytechnique de Bordeaux-Centre National de la Recherche Scientifique (CNRS), Université de Bordeaux, Denys Breysse, Franck Taillandier, Cédric Baudrit, STAR, ABES, École Nationale Supérieure d'Arts et Métiers (ENSAM), and HESAM Université (HESAM)-HESAM Université (HESAM)-Institut Polytechnique de Bordeaux-Centre National de la Recherche Scientifique (CNRS)-Université de Bordeaux (UB)-Institut National de la Recherche Agronomique (INRA)
- Subjects
Complex system ,Système complexe ,Modèle relationnel probabiliste ,[PHYS.MECA]Physics [physics]/Mechanics [physics] ,Modélisation d'incertitude ,Uncertainty modelling ,Knowledge base ,[SPI.GCIV]Engineering Sciences [physics]/Civil Engineering ,Projet de construction ,Base de connaissances ,Probabilistic relational model (PRM) ,[SPI.GCIV.RISQ]Engineering Sciences [physics]/Civil Engineering/Risques ,[SPI.GCIV] Engineering Sciences [physics]/Civil Engineering ,[PHYS.MECA] Physics [physics]/Mechanics [physics] ,[SPI.GCIV.RISQ] Engineering Sciences [physics]/Civil Engineering/Risques ,Construction project - Abstract
The difficulty to manage risks in construction projects comes from their complexity. They are composed of many entities (activities, actors, contracts, resources, etc.) among which interactions exist at many levels and influence the system response. In turn, this response can influence the behaviour of some entities. In order to capture the complexity of the system, it is necessary to structure, model and share cross-disciplinary and interdisciplinary knowledge flows in a common and unifying framework. Because of this high complexity, the system response may appear as unpredictable. Uncertainties at all scales are source of risk for the construction project itself. Tackling this complexity could improve our grasp of the whole system, in order to provide more robust and efficient decision alternatives in risk management. It is then essential to propose conceptual approaches able to represent the behaviour and the interactions of system entities over the time.Different approaches and tools have been proposed to model and simulate risk of construction project as Risk Breakdown Structure, Bayesian networks, Network Theory, Monte Carlo Simulation, Analytical Network Process, etc. These tools and methods can be used to simulate the behaviour of the system, but they are inadequate for representing large and complex dynamical system because they are based on case-dependant model (i.e. a specific model has to be built for each studied construction project), the fragmented representation of knowledge, the lack of common vocabulary, the lack of generic character. Hence, an ontology paradigm is developed in order (a) to provide a common vocabulary able to represent the knowledge about construction projects and its risks, (b) to shape the structure (interrelations) between those identified database and (c) to represent construction project integrating as well technical, human, sustainability dimensions at different detailed levels of uncertainty.In this context, by coupling the advantages of ontology and Bayesian network, the framework of probabilistic relational model (PRM) will provide a practical mathematical formalism allowing to represent and simulate complex stochastic dynamical systems. PRMs extend the formalism of Bayesian networks by adding the notion of object paradigm where uncertainty attached to the system is then taken into account by quantifying probabilistic dependence between the properties of objects and other properties of related objects. To the best of our knowledge, this thesis report will be the first application in which PRM have been proposed to model and simulate construction project while accounting uncertainties.Therefore PRM is used to simulate the propagation of uncertainties existing in this complexdynamic and multi-scale system, which lead to construction project risk. A prototypal software framework has been developed to check the consistency and the viability of the concept. It will be shown how it can be used in order to predict the uncertain response of the system as well as to study how the overall response of the system is sensitive to local values or assumptions. Lastly, PRM will be applied for two case-studies (a road and bridge construction in Hue-Vietnam and another building project in France). Results show that the formalism of PRMs allows to (1) implement any kind of construction project, (2) to take uncertainty into account, (3) to simulate and predict the behaviour of system and (4) to derive information from partial knowledge., La gestion des risques est un enjeu majeur, mais difficile pour les projets de construction. La difficulté à gérer les risques dans les projets de construction vient de leur complexité. Ils sont composés de nombreuses entités (activités, acteurs, contrats, ressources, etc.) dont le comportement collectif influencent les comportements individuels. Afin de mieux appréhender et comprendre la complexité du système dans son ensemble, il est nécessaire de capitaliser et structurer la connaissance dans le but de proposer un modèle capable de décrire et simuler le comportement du système étudié. Cependant, la formalisation de tels modèles se confronte à de nombreuses difficultés : présence de facteurs humains, raretés de modèles, connaissances souvent expertes et qualitatives difficiles à formaliser, méconnaissance des mécanismes régissant certains processus, données parcellaires, hétérogènes et souvent imparfaites, échelles multiples, etc. L’objectif est de proposer des approches conceptuelles permettant d’assembler des morceaux de connaissances hétérogènes multi-sources et multi-échelles dans le but de proposer un modèle capable de réduire les incertitudes liées au fonctionnement, au devenir, à la conception et au pilotage des projets de construction.Différentes approches et outils ont été proposés pour modéliser et simuler les projets de construction : structure de répartition des risques, réseaux bayésiens, théorie des réseaux, simulation de Monte Carlo, réseau analytique, etc. Ces outils et méthodes sont utilisés pour simuler le comportement de systèmes, mais inadéquats pour représenter des systèmes complexes dynamiques à grandes échelles. Ils sont pour la plupart parcellaires et ne présentent pas ou peu de généricités. Dans ce contexte, les modèles relationnels probabilistes (MRPs) fourniront un formalisme mathématique pratique permettant de représenter et de simuler des systèmes dynamiques complexes entachés d’incertitudes. Les MRPs étendent le formalisme des réseaux bayésiens en ajoutant la notion de paradigme objet où l'incertitude attachée au système est alors prise en compte en quantifiant la dépendance probabiliste entre les propriétés des objets.Pour ce faire, une ontologie du domaine a été développée pour (a) fournir un vocabulaire commun capable de représenter les connaissances sur les projets de construction, (b) identifier les interconnections entre les différentes entités techniques, humaines, économiques à différents niveaux de description. Guidé par cette ontologie unMRP a été élaboré et utilisé pour simuler le comportement des projets de construction tout en prenant en compte les incertitudes. On montrera comment il peut être utilisé pour prédire la réponse incertaine du système ainsi que pour étudier comment la réponse globale du système est sensible aux valeurs ou hypothèses locales. Enfin, le MRP sera utilisé pour deux études de cas (la construction de routes et de ponts à Hue-Vietnam et d’un bâtiment en France). Les résultats montrent que le formalisme des MRPs permet (1) d’instancier tout type de projets de construction, (2) de prendre en compte l'incertitude, (3) de simuler et prédire le comportement du système et (4) d’extraire de la connaissance à partir d’informations partielles.
- Published
- 2018
25. Gestion de l’incertitude et de l’imprécision dans un processus d’extraction de connaissances à partir des textes
- Author
-
Pierre-Antoine Jean, Laboratoire de Génie Informatique et Ingénierie de Production (LGI2P), IMT - MINES ALES (IMT - MINES ALES), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Université Montpellier, Jacky Montmain, Patrice Bellot, and STAR, ABES
- Subjects
Traitement du langage naturel ,Information extraction ,Ontology ,Uncertainty ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,Découverte de connaissances ,Extraction d'information ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,Knowledge discovery ,Base de connaissances ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,Incertitude ,[INFO.INFO-IR] Computer Science [cs]/Information Retrieval [cs.IR] ,Natural Language Processing - Abstract
Knowledge discovery and inference are concepts tackled in different ways in the scientific literature. Indeed, a large number of domains are interested such as : information retrieval, textual inference or knowledge base population. Theses concepts are arousing increasing interest in both academic and industrial fields, promoting development of new methods.This manuscript proposes an automated approach to infer and evaluate knowledge from extracted relations in non-structured texts. Its originality is based on a novel framework making possible to exploit (i) the linguistic uncertainty thanks to an uncertainty detection method described in this manuscript (ii) a generated partial ordering of studied objects (e.g. noun phrases) taking into account of syntactic implications and a prior knowledge defined into taxonomies, and (iii) an evaluation step of extracted and inferred relations by selection models exploiting a specific partial ordering of relations. This partial ordering allows to compute some criteria in using information propagation rules in order to evaluate the belief associated to a relation in taking into account of the linguistic uncertainty. The proposed approach is illustrated and evaluated through the definition of a system performing question answering by analysing texts available on the Web. This case study shows the benefits of structuring processed information (e.g. using prior knowledge), the impact of selection models and the role of the linguistic uncertainty for inferring and discovering new knowledge. These contributions have been validated by several international and national publications and our pipeline can be downloaded at https ://github.com/PAJEAN/., Les concepts de découverte et d’extraction de connaissances ainsi que d’inférencesont abordés sous différents angles au sein de la littérature scientifique. En effet, de nombreux domaines s’y intéressent allant de la recherche d’information, à l’implication textuelle en passant par les modèles d’enrichissement automatique des bases de connaissances. Ces concepts suscitent de plus en plus d’intérêt à la fois dans le monde académique et industriel favorisant le développement de nouvelles méthodes.Cette thèse propose une approche automatisée pour l’inférence et l’évaluation de connaissances basée sur l’analyse de relations extraites automatiquement à partir de textes. L’originalité de cette approche repose sur la définition d’un cadre tenant compte (i) de l’incertitude linguistique et de sa détection dans le langage naturel réalisée au travers d’une méthode d’apprentissage tenant compte d’une représentation vectorielle spécifique des phrases, (ii) d’une structuration des objets étudiés (e.g. syntagmes nominaux) sous la forme d’un ordre partiel tenant compte à la fois des implications syntaxiques et d’une connaissance a priori formalisée dans un modèle de connaissances de type taxonomique (iii) d’une évaluation des relations extraites et inférées grâce à des modèles de sélection exploitant une organisation hiérarchique des relations considérées. Cette organisation hiérarchique permet de distinguer différents critères en mettant en œuvre des règles de propagation de l’information permettant ainsi d’évaluer la croyance qu’on peut accorder à une relation en tenant compte de l’incertitude linguistique véhiculée. Bien qu’a portée plus large, notre approche est ici illustrée et évaluée au travers de la définition d’un système de réponse à un questionnaire, généré de manière automatique, exploitant des textes issus du Web. Nous montrons notamment le gain informationnel apporté par la connaissance a priori, l’impact des modèles de sélection établis et le rôle joué par l’incertitude linguistique au sein d’une telle chaîne de traitement. Les travaux sur la détection de l’incertitude linguistique et la mise en place de la chaîne de traitement ont été validés par plusieurs publications et communications nationales et internationales. Les travaux développés sur la détection de l’incertitude et la mise en place de la chaîne de traitement sont disponibles au téléchargement à l’adresse suivante : https ://github.com/PAJEAN/.
- Published
- 2017
26. Gestion de l’incertitude et de l’imprécision dans un processus d’extraction de connaissances à partir des textes
- Author
-
Jean, Pierre-Antoine, Laboratoire de Génie Informatique et Ingénierie de Production (LGI2P), IMT - MINES ALES (IMT - MINES ALES), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Université Montpellier, Jacky Montmain, and Patrice Bellot
- Subjects
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,Traitement du langage naturel ,Knowledge discovery ,Information extraction ,Ontology ,Base de connaissances ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,Uncertainty ,Découverte de connaissances ,Incertitude ,Extraction d'information ,Natural Language Processing - Abstract
Knowledge discovery and inference are concepts tackled in different ways in the scientific literature. Indeed, a large number of domains are interested such as : information retrieval, textual inference or knowledge base population. Theses concepts are arousing increasing interest in both academic and industrial fields, promoting development of new methods.This manuscript proposes an automated approach to infer and evaluate knowledge from extracted relations in non-structured texts. Its originality is based on a novel framework making possible to exploit (i) the linguistic uncertainty thanks to an uncertainty detection method described in this manuscript (ii) a generated partial ordering of studied objects (e.g. noun phrases) taking into account of syntactic implications and a prior knowledge defined into taxonomies, and (iii) an evaluation step of extracted and inferred relations by selection models exploiting a specific partial ordering of relations. This partial ordering allows to compute some criteria in using information propagation rules in order to evaluate the belief associated to a relation in taking into account of the linguistic uncertainty. The proposed approach is illustrated and evaluated through the definition of a system performing question answering by analysing texts available on the Web. This case study shows the benefits of structuring processed information (e.g. using prior knowledge), the impact of selection models and the role of the linguistic uncertainty for inferring and discovering new knowledge. These contributions have been validated by several international and national publications and our pipeline can be downloaded at https ://github.com/PAJEAN/.; Les concepts de découverte et d’extraction de connaissances ainsi que d’inférencesont abordés sous différents angles au sein de la littérature scientifique. En effet, de nombreux domaines s’y intéressent allant de la recherche d’information, à l’implication textuelle en passant par les modèles d’enrichissement automatique des bases de connaissances. Ces concepts suscitent de plus en plus d’intérêt à la fois dans le monde académique et industriel favorisant le développement de nouvelles méthodes.Cette thèse propose une approche automatisée pour l’inférence et l’évaluation de connaissances basée sur l’analyse de relations extraites automatiquement à partir de textes. L’originalité de cette approche repose sur la définition d’un cadre tenant compte (i) de l’incertitude linguistique et de sa détection dans le langage naturel réalisée au travers d’une méthode d’apprentissage tenant compte d’une représentation vectorielle spécifique des phrases, (ii) d’une structuration des objets étudiés (e.g. syntagmes nominaux) sous la forme d’un ordre partiel tenant compte à la fois des implications syntaxiques et d’une connaissance a priori formalisée dans un modèle de connaissances de type taxonomique (iii) d’une évaluation des relations extraites et inférées grâce à des modèles de sélection exploitant une organisation hiérarchique des relations considérées. Cette organisation hiérarchique permet de distinguer différents critères en mettant en œuvre des règles de propagation de l’information permettant ainsi d’évaluer la croyance qu’on peut accorder à une relation en tenant compte de l’incertitude linguistique véhiculée. Bien qu’a portée plus large, notre approche est ici illustrée et évaluée au travers de la définition d’un système de réponse à un questionnaire, généré de manière automatique, exploitant des textes issus du Web. Nous montrons notamment le gain informationnel apporté par la connaissance a priori, l’impact des modèles de sélection établis et le rôle joué par l’incertitude linguistique au sein d’une telle chaîne de traitement. Les travaux sur la détection de l’incertitude linguistique et la mise en place de la chaîne de traitement ont été validés par plusieurs publications et communications nationales et internationales. Les travaux développés sur la détection de l’incertitude et la mise en place de la chaîne de traitement sont disponibles au téléchargement à l’adresse suivante : https ://github.com/PAJEAN/.
- Published
- 2017
27. Dialogue Explicatif et Argumentation sur des Bases de Connaissances Incohérentes
- Author
-
Patrice Buche, Madalina Croitoru, Abdallah Arioua, Université Claude Bernard Lyon 1 (UCBL), Université de Lyon, Ingénierie des Agro-polymères et Technologies Émergentes (UMR IATE), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Université Montpellier 2 - Sciences et Techniques (UM2)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université de Montpellier (UM)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), Graphs for Inferences on Knowledge (GRAPHIK), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), project DURDUR (ANR-13-ALID-0002), ANR-13-ALID-0002,Dur-Dur,Innovations agronomiques, techniques et organisationnelles au service de la DURabilité de la filière blé DUR(2013), Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université Montpellier 2 - Sciences et Techniques (UM2)-Université de Montpellier (UM)-Institut National de la Recherche Agronomique (INRA), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Inria Sophia Antipolis - Méditerranée (CRISAM), and Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université Montpellier 2 - Sciences et Techniques (UM2)-Université de Montpellier (UM)-Institut National de la Recherche Agronomique (INRA)
- Subjects
Argumentative ,Knowledge management ,Knowledge representation and reasoning ,Computer science ,Agency (philosophy) ,02 engineering and technology ,expert scientifique ,Argumentation theory ,Domain (software engineering) ,Explanation ,Argumentation ,Dialogue ,Formal dialectics ,Logic-based argumentation ,Artificial Intelligence ,020204 information systems ,base de connaissances ,0202 electrical engineering, electronic engineering, information engineering ,Relevance (information retrieval) ,[INFO]Computer Science [cs] ,dialogue ,Knowledge bases ,business.industry ,General Engineering ,Intelligence artificielle ,Knowledge acquisition ,Computer Science Applications ,blé dur ,Sustainability ,020201 artificial intelligence & image processing ,business - Abstract
We introduce a new formal model of explanatory dialogues.We extend the model by argumentative capacities.We provide an implementation of the model.We show its usefulness through a case study on knowledge acquisition. We introduce a formal model of explanatory dialogue called EDS. We extend this model by including argumentation capacities to facilitate knowledge acquisition in inconsistent knowledge bases. To prove the relevance of such model we provide the dalek (DiALectical Explanation in Knowledge-bases) framework that implements this model. We show the usefulness of the framework on a real-world application in the domain of Durum Wheat sustainability improvement within the ANR (French National Agency) funded Dur-Dur project. The preliminary pilot evaluation of the framework with agronomy experts gives a promising indication on the impact of explanation dialogues on the improvement of the knowledges content.
- Published
- 2017
- Full Text
- View/download PDF
28. Reducing Term Mismatch Probability by Exploiting Semantic Term Relations
- Author
-
Almasri, Mohannad, Laboratoire d'Informatique de Grenoble (LIG ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Université Grenoble Alpes, Jean-Pierre Chevallet, and Catherine Berrut
- Subjects
Indexation conceptuelle ,Requête précise ,Base de connaissances ,Word embeddings ,Collaborative resource ,Disparité des termes ,Knowledge resource ,Precise Query ,Conceptual Indexing ,Ressource collaborative ,Term mismatch problem ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
Even though modern retrieval systems typically use a multitude of features to rank documents, the backbone for search ranking is usually the standard retrieval models.This thesis addresses a limitation of the standard retrieval models, the term mismatch problem. The term mismatch problem is a long standing problem in information retrieval. However, it was not well understood how often term mismatch happens in retrieval, how important it is for retrieval, or how it affects retrieval performance. This thesis answers the above questions.This research is enabled by the formal definition of term mismatch. In this thesis, term mismatch is defined as the probability that a term does not appear in a document given that this document is relevant. We propose several approaches for reducing term mismatch probability through modifying documents or queries. Our proposals are then followed by a quantitative analysis of term mismatch probability that shows how much the proposed approaches reduce term mismatch probability with maintaining the system performance. An essential component for achieving term mismatch probability reduction is the knowledge resource that defines terms and their relationships.First, we propose a document modification approach according to a user query. The main idea of our document modification approach is to deal with mismatched query terms. While prior research on document enrichment provides a static approach for document modification, we are concerned to only modify the document in case of mismatch. The modified document is then used in a standard retrieval model in order to obtain a mismatch aware retrieval model.Second, we propose a semantic query expansion approach based on a collaborative knowledge resource. We focus on the collaborative resource structure to obtain interesting expansion terms that contribute to reduce term mismatch probability, and as a result, improve the effectiveness of search.Third, we propose a query expansion approach based on neural language models. Neural language models are proposed to learn term vector representations, called distributed neural embeddings. Distributed neural embeddings capture relationships between terms, and they obtained impressive results comparing with state of the art approaches in term similarity tasks. However, in information retrieval, distributed neural embeddings are newly started to be exploited. We propose to use distributed neural embeddings as a knowledge resource in a query expansion scenario.Fourth, we apply the term mismatch probability definition for each contribution of the above contributions. We show how we use standard retrieval corpora with queries and relevance judgments to estimate the term mismatch probability. We estimate the term mismatch probability using original documents and queries, and we figure out how mismatch problem is clearly found in search systems for different types of indexing terms. Then, we point out how much our contributions reduce the estimated mismatch probability, and improve the system recall. As a result, we present how the modified document and query representations contribute to build a mismatch aware retrieval model that mitigate term mismatch problem theoretically and practically.This dissertation shows the effectiveness of our proposals to improve retrieval performance. Our experiments are conducted on corpora from two different domains: medical domain and cultural heritage domain. Moreover, we use two different types of indexing terms for representing documents and queries: words and concepts, and we exploit several types of relationships between indexing terms: hierarchical relationships, relationships based on a collaborative resource structure, relationships defined on distributed neural embeddings.Promising research directions are identified where the term mismatch research may make a significance impact on improving the search scenarios.; Les systèmes de recherche d’information utilisent généralement une multitude de fonctionnalités pour classer les documents. Néanmoins, un élément reste essentiel pour le classement, qui est les modèles standards de recherche d’information.Cette thèse aborde une limitation fondamentale des modèles de recherche d’information, à savoir le problème de la disparité des termes . Le problème de la disparité des termes est un problème de longue date dans la recherche d'informations. Cependant, le problème de la récurrence de la disparité des termes n'a pas bien été défini dans la recherche d'information, son importance, et à quel point cela affecterai les résultats de la recherche. Cette thèse tente de répondre aux problèmes présentés ci-dessus.Nos travaux de recherche sont rendus possibles par la définition formelle de la probabilité de la disparité des termes. Dans cette thèse, la disparité des termes est définie comme étant la probabilité d'un terme ne figurant pas dans un document pertinent pour la requête. De ce fait, cette thèse propose des approches pour réduire la probabilité de la disparité des termes. De plus, nous confortons nos proposions par une analyse quantitative de la probabilité de la disparité des termes qui décrit de quelle manière les approches proposées permettent de réduire la probabilité de la disparité des termes tout en conservant les performances du système.Au première niveau, à savoir le document, nous proposons une approche de modification des documents en fonction de la requête de l'utilisateur. Il s'agit de traiter les termes de la requête qui n'apparaissent pas dans le document. Le modèle de document modifié est ensuite utilisé dans un modèle standard de recherche afin d'obtenir un modèle permettant de traiter explicitement la disparité des termes.Au second niveau, à savoir la requête, nous avons proposé deux majeures contributions.Premièrement, nous proposons une approche d'expansion de requête sémantique basée sur une ressource collaborative. Nous concentrons plutôt sur la structure de ressources collaboratives afin d'obtenir des termes d'expansion intéressants qui contribuent à réduire la probabilité de la disparité des termes, et par conséquent, d'améliorer la qualité de la recherche.Deuxièmement, nous proposons un modèle d'expansion de requête basé sur les modèles de langue neuronaux. Les modèles de langue neuronaux sont proposés pour apprendre les représentations vectorielles des termes dans un espace latent, appelées . Ces représentations vectorielles s'appuient sur les relations entre les termes permettant ainsi d'obtenir des résultats impressionnants en comparaison avec l'état de l'art dans les taches de similarité de termes. Cependant, nous proposons d'utiliser ces représentations vectorielles comme une ressource qui définit les relations entre les termes.Nous adaptons la définition de la probabilité de la disparité des termes pour chaque contribution ci-dessus. Nous décrivons comment nous utilisons des corpus standard avec des requêtes et des jugements de pertinence pour estimer la probabilité de la disparité des termes. Premièrement, nous estimons la probabilité de la disparité des termes à l'aide les documents et les requêtes originaux. Ainsi, nous présentons les différents cas de la disparité des termes clairement identifiée dans les systèmes de recherche pour les différents types de termes d'indexation. Ensuite, nous indiquons comment nos contributions réduisent la probabilité de la disparité des termes estimée et améliorent le rappel du système.Des directions de recherche prometteuses sont identifiées dans le domaine de la disparité des termes qui pourrait présenter éventuellement un impact significatif sur l'amélioration des scénarios de la recherche.
- Published
- 2017
29. Are ranking semantics sensitive to the notion of core?
- Author
-
Bruno YUN, Madalina Croitoru, Pierre Bisquert, Graphs for Inferences on Knowledge (GRAPHIK), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Ingénierie des Agro-polymères et Technologies Émergentes (UMR IATE), Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université Montpellier 2 - Sciences et Techniques (UM2)-Université de Montpellier (UM)-Institut National de la Recherche Agronomique (INRA), Graphs for Inferences on Knowledge ( GRAPHIK ), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier ( LIRMM ), Université de Montpellier ( UM ) -Centre National de la Recherche Scientifique ( CNRS ) -Université de Montpellier ( UM ) -Centre National de la Recherche Scientifique ( CNRS ) -Inria Sophia Antipolis - Méditerranée ( CRISAM ), Institut National de Recherche en Informatique et en Automatique ( Inria ) -Institut National de Recherche en Informatique et en Automatique ( Inria ), Ingénierie des Agro-polymères et Technologies Émergentes ( IATE ), Centre de Coopération Internationale en Recherche Agronomique pour le Développement ( CIRAD ) -Université de Montpellier ( UM ) -Université Montpellier 2 - Sciences et Techniques ( UM2 ) -Institut national d’études supérieures agronomiques de Montpellier ( Montpellier SupAgro ) -Institut National de la Recherche Agronomique ( INRA ) -Centre international d'études supérieures en sciences agronomiques ( Montpellier SupAgro ), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Inria Sophia Antipolis - Méditerranée (CRISAM), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Université Montpellier 2 - Sciences et Techniques (UM2)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université de Montpellier (UM)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), and Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)
- Subjects
[ INFO ] Computer Science [cs] ,semantic web ,modèle ontologique ,base de connaissances ,knowledge base ,[INFO]Computer Science [cs] ,[ INFO.INFO-AI ] Computer Science [cs]/Artificial Intelligence [cs.AI] ,web sémantique ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
International audience; In this paper, we study the impact of two notions of core on the output of ranking semantics in logical argumentation frameworks. We consider the existential rules fragment, a language widely used in Semantic Web and Ontology Based Data Access applications. Using burden semantics as example we show how some ranking semantics yield different outputs on the argumentation graph and its cores. We extend existing results in the literature regarding core equivalences on logical argumentation frameworks and propose the first formal characterisation of core-induced modification for a class of ranking semantics satisfying given postulates.
- Published
- 2017
30. A personal knowledge base integrating user data and activity timeline
- Author
-
Montoya, David, Laboratoire Spécification et Vérification [Cachan] (LSV), École normale supérieure - Cachan (ENS Cachan)-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, and Serge Abiteboul
- Subjects
Knowledge base ,Capteurs téléphone intelligent ,Intégration de données ,Transportation mode recognition ,Reconnaissance d'activité ,Personal information management ,Reconnaissance de mode de transport ,Base de connaissances ,Activity recognition ,[INFO.INFO-DS]Computer Science [cs]/Data Structures and Algorithms [cs.DS] ,Mobile device sensor data ,Data integration ,Gestion de données personnelles - Abstract
Typical Internet users today have their data scattered over several devices, applications, and services. Managing and controlling one's data is increasingly difficult. In this thesis, we adopt the viewpoint that the user should be given the means to gather and integrate her data, under her full control. In that direction, we designed a system that integrates and enriches the data of a user from multiple heterogeneous sources of personal information into an RDF knowledge base. The system is open-source and implements a novel, extensible framework that facilitates the integration of new data sources and the development of new modules for deriving knowledge. We first show how user activity can be inferred from smartphone sensor data. We introduce a time-based clustering algorithm to extract stay points from location history data. Using data from additional mobile phone sensors, geographic information from OpenStreetMap, and public transportation schedules, we introduce a transportation mode recognition algorithm to derive the different modes and routes taken by the user when traveling. The algorithm derives the itinerary followed by the user by finding the most likely sequence in a linear-chain conditional random field whose feature functions are based on the output of a neural network. We also show how the system can integrate information from the user's email messages, calendars, address books, social network services, and location history into a coherent whole. To do so, it uses entity resolution to find the set of avatars used by each real-world contact and performs spatiotemporal alignment to connect each stay point with the event it corresponds to in the user's calendar. Finally, we show that such a system can also be used for multi-device and multi-system synchronization and allow knowledge to be pushed to the sources. We present extensive experiments.; Aujourd'hui, la plupart des internautes ont leurs données dispersées dans plusieurs appareils, applications et services. La gestion et le contrôle de ses données sont de plus en plus difficiles. Dans cette thèse, nous adoptons le point de vue selon lequel l'utilisateur devrait se voir donner les moyens de récupérer et d'intégrer ses données, sous son contrôle total. À ce titre, nous avons conçu un système logiciel qui intègre et enrichit les données d'un utilisateur à partir de plusieurs sources hétérogènes de données personnelles dans une base de connaissances RDF. Le logiciel est libre, et son architecture innovante facilite l'intégration de nouvelles sources de données et le développement de nouveaux modules pour inférer de nouvelles connaissances. Nous montrons tout d'abord comment l'activité de l'utilisateur peut être déduite des données des capteurs de son téléphone intelligent. Nous présentons un algorithme pour retrouver les points de séjour d'un utilisateur à partir de son historique de localisation. À l'aide de ces données et de données provenant d'autres capteurs de son téléphone, d'informations géographiques provenant d'OpenStreetMap, et des horaires de transports en commun, nous présentons un algorithme de reconnaissance du mode de transport capable de retrouver les différents modes et lignes empruntés par un utilisateur lors de ses déplacements. L'algorithme reconnaît l'itinéraire pris par l'utilisateur en retrouvant la séquence la plus probable dans un champ aléatoire conditionnel dont les probabilités se basent sur la sortie d'un réseau de neurones artificiels. Nous montrons également comment le système peut intégrer les données du courrier électronique, des calendriers, des carnets d'adresses, des réseaux sociaux et de l'historique de localisation de l'utilisateur dans un ensemble cohérent. Pour ce faire, le système utilise un algorithme de résolution d'entité pour retrouver l'ensemble des différents comptes utilisés par chaque contact de l'utilisateur, et effectue un alignement spatio-temporel pour relier chaque point de séjour à l'événement auquel il correspond dans le calendrier de l'utilisateur. Enfin, nous montrons qu'un tel système peut également être employé pour faire de la synchronisation multi-système/multi-appareil et pour pousser de nouvelles connaissances vers les sources. Les résultats d'expériences approfondies sont présentés.
- Published
- 2017
31. Étude comparative de deux logiciels de gestion de références bibliographiques (LGRB) : Zotero et Mendeley
- Author
-
Lovissoukpo, Loro, Ecole de Bibliothécaires Archivistes et Documentalistes ( EBAD ), Université Cheikh Anta Diop [Dakar, Sénégal] ( UCAD ), Université Cheikh Anta Diop de Dakar - EBAD, Diéyi Diouf, Mohamed Lat Sack Diop, and LOVISSOUKPO, Loro
- Subjects
LGRB ,libre accès ,[SHS.INFO.COMM] Humanities and Social Sciences/Library and information sciences/domain_shs.info.comm ,bibliographic management software ,reference manager software ,reference database software ,Recherche documentaire ,MSC ,citation manager software ,base de connaissances ,écriture scientifique ,bibliographic management tool ,outil technologique ,Bibliographie ,logiciel propriétaire ,bibliométrie ,logiciel de citation ,littératie numérique ,[ SHS.INFO.GEST ] Humanities and Social Sciences/Library and information sciences/domain_shs.info.gest ,bibliographic management system ,Logiciel de bibliographie personnelle ,bibliographic formatting software ,IST ,sciences ouvertes ,[SHS.INFO.GEST] Humanities and Social Sciences/Library and information sciences/domain_shs.info.gest ,Open data ,Références bibliographiques ,Open access ,Zotero ,[ SHS.INFO.COMM ] Humanities and Social Sciences/Library and information sciences/domain_shs.info.comm ,Mendeley ,logiciel libre ,personal bibliographic citation management program ,bibliographic software - Abstract
Les mutations du paysage de l’information scientifique ces dernières décennies dues à Internet ont provoqué un changement de paradigme dans la gestion des références bibliographiques. En effet, si autrefois, le chercheur doit chaque fois noter, le cas échéant, repenser aux derniers documents consultés afin de réécrire manuellement avec précision les références bibliographiques selon la norme à lui imposée, il lui est possible depuis quelques années de rentabiliser le temps consacré à cette tâche contraignante par l’utilisation des logiciels capables d’automatiser la gestion des mêmes références bibliographiques.Ces logiciels, à l’instar des autres familles de logiciels sont soit commerciaux, soit gratuits. Les outils gratuits étant prisés par les milieux universitaires, il est retenu au cours de notre recherche d’en comparer deux (02) à savoir : Zotero, logiciel libre et Mendeley, logiciel propriétaire. Le choix de comparer ces deux logiciels tire son essence de la notoriété dont ils jouissent parmi les outils gratuits. Afin de savoir lequel est plus adapté aux besoins des utilisateurs des "Pays du sud" d’expression française, nous avons entrepris cette étude en retenant des critères jugés essentiels selon lesquels nous avons établi la comparaison. Cette comparaison s’est limitée aux aspects techniques et fonctionnels et ne prend donc pas en compte les aspects quantitatifs en matière d’usage réel de l’un ou de l’autre logiciel.À l’issu de nos recherches, Zotero est jugé plus convenable à plusieurs égards : d’abord, son statut de logiciel libre mobilise une communauté active qui assure son développement de façon permanente. Ensuite, son modèle économique est en parfaite adéquation avec le libre accès aux données de la recherche scientifique. Par ailleurs, il est compatible avec beaucoup plus de formats et d’environnements de travail. Enfin, il dégage une certaine robustesse au niveau de ses fonctionnalités de détection et d’import de ressources ; de capture de page web d’ailleurs inexistant chez Mendeley.Toutefois, nonobstant son statut, sa robustesse et sa stabilité, Zotero a des limites et ses développeurs doivent prendre en considération l’évolution des besoins afin d’ajouter certaines fonctionnalités telles que la connexion directe aux bases de données par le biais des translators ; la lecture intégrée et l’annotation des fichiers PDF ; l’intégration automatique aux compilateurs de texte à l’instar de l’intégration aux outils graphiques de traitement de texte, etc. Ces fonctionnalités apporteraient à coup sûr une valeur ajoutée à ce logiciel.
- Published
- 2017
32. Modeling and mining business process variants in cloud environments
- Author
-
Yongsiriwit, Karn, STAR, ABES, Services répartis, Architectures, MOdélisation, Validation, Administration des Réseaux (SAMOVAR), Institut Mines-Télécom [Paris] (IMT)-Télécom SudParis (TSP), Département Informatique (INF), Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, and Walid Gaaloul
- Subjects
[INFO.INFO-NI] Computer Science [cs]/Networking and Internet Architecture [cs.NI] ,Ontology ,Business process models ,Allocation des ressources Cloud ,Ontologie ,Modèle de processus ,Fragment du processus métier ,[INFO.INFO-MO]Computer Science [cs]/Modeling and Simulation ,Knowledge base ,[INFO.INFO-NI]Computer Science [cs]/Networking and Internet Architecture [cs.NI] ,Cloud resource allocation ,Base de connaissances ,Fouille du processus ,Process mining ,Business process fragments ,[INFO.INFO-MO] Computer Science [cs]/Modeling and Simulation - Abstract
More and more organizations are adopting cloud-based Process-Aware Information Systems (PAIS) to manage and execute processes in the cloud as an environment to optimally share and deploy their applications. This is especially true for large organizations having branches operating in different regions with a considerable amount of similar processes. Such organizations need to support many variants of the same process due to their branches' local culture, regulations, etc. However, developing new process variant from scratch is error-prone and time consuming. Motivated by the "Design by Reuse" paradigm, branches may collaborate to develop new process variants by learning from their similar processes. These processes are often heterogeneous which prevents an easy and dynamic interoperability between different branches. A process variant is an adjustment of a process model in order to flexibly adapt to specific needs. Many researches in both academics and industry are aiming to facilitate the design of process variants. Several approaches have been developed to assist process designers by searching for similar business process models or using reference models. However, these approaches are cumbersome, time-consuming and error-prone. Likewise, such approaches recommend entire process models which are not handy for process designers who need to adjust a specific part of a process model. In fact, process designers can better develop process variants having an approach that recommends a well-selected set of activities from a process model, referred to as process fragment. Large organizations with multiple branches execute BP variants in the cloud as environment to optimally deploy and share common resources. However, these cloud resources may be described using different cloud resources description standards which prevent the interoperability between different branches. In this thesis, we address the above shortcomings by proposing an ontology-based approach to semantically populate a common knowledge base of processes and cloud resources and thus enable interoperability between organization's branches. We construct our knowledge base built by extending existing ontologies. We thereafter propose an approach to mine such knowledge base to assist the development of BP variants. Furthermore, we adopt a genetic algorithm to optimally allocate cloud resources to BPs. To validate our approach, we develop two proof of concepts and perform experiments on real datasets. Experimental results show that our approach is feasible and accurate in real use-cases, De plus en plus les organisations adoptent les systèmes d'informations sensibles aux processus basés sur Cloud en tant qu'un environnement pour gérer et exécuter des processus dans le Cloud dans l'objectif de partager et de déployer leurs applications de manière optimale. Cela est particulièrement vrai pour les grandes organisations ayant des succursales opérant dans des différentes régions avec des processus considérablement similaires. Telles organisations doivent soutenir de nombreuses variantes du même processus en raison de la culture locale de leurs succursales, de leurs règlements, etc. Cependant, le développement d'une nouvelle variante de processus à partir de zéro est sujet à l'erreur et peut prendre beaucoup du temps. Motivés par le paradigme "la conception par la réutilisation", les succursales peuvent collaborer pour développer de nouvelles variantes de processus en apprenant de leurs processus similaires. Ces processus sont souvent hétérogènes, ce qui empêche une interopérabilité facile et dynamique entre les différentes succursales. Une variante de processus est un ajustement d'un modèle de processus afin de s'adapter d'une façon flexible aux besoins spécifiques. De nombreuses recherches dans les universités et les industries visent à faciliter la conception des variantes de processus. Plusieurs approches ont été développées pour aider les concepteurs de processus en recherchant des modèles de processus métier similaires ou en utilisant des modèles de référence. Cependant, ces approches sont lourdes, longues et sujettes à des erreurs. De même, telles approches recommandent des modèles de processus pas pratiques pour les concepteurs de processus qui ont besoin d'ajuster une partie spécifique d'un modèle de processus. En fait, les concepteurs de processus peuvent mieux développer des variantes de processus ayant une approche qui recommande un ensemble bien défini d'activités à partir d'un modèle de processus défini comme un fragment de processus. Les grandes organisations multi-sites exécutent les variantes de processus BP dans l'environnement Cloud pour optimiser le déploiement et partager les ressources communes. Cependant, ces ressources Cloud peuvent être décrites en utilisant des différents standards de description des ressources Cloud ce qui empêche l'interopérabilité entre les différentes succursales. Dans cette thèse, nous abordons les limites citées ci-dessus en proposant une approche basée sur les ontologies pour peupler sémantiquement une base de connaissance commune de processus et de ressources Cloud, ce qui permet une interopérabilité entre les succursales de l'organisation. Nous construisons notre base de connaissance en étendant les ontologies existantes. Ensuite, nous proposons une approche pour exploiter cette base de connaissances afin de supporter le développement des variantes BP. De plus, nous adoptons un algorithme génétique pour allouer d'une manière optimale les ressources Cloud aux BPs. Pour valider notre approche, nous développons deux preuves de concepts et effectuons des expériences sur des ensembles de données réels. Les résultats expérimentaux montrent que notre approche est réalisable et précise dans des cas d'utilisation réels
- Published
- 2017
33. La régionalisation des inventaires de cycle de vie pour évaluer les technologies, les flux matériaux et les impacts dans la chaine d’approvisionnement des énergies renouvelables
- Author
-
François, Cyril, STAR, ABES, Institut des Sciences de la Terre (ISTerre), Université Joseph Fourier - Grenoble 1 (UJF)-Institut Français des Sciences et Technologies des Transports, de l'Aménagement et des Réseaux (IFSTTAR)-Institut national des sciences de l'Univers (INSU - CNRS)-Institut de recherche pour le développement [IRD] : UR219-PRES Université de Grenoble-Université Savoie Mont Blanc (USMB [Université de Savoie] [Université de Chambéry])-Centre National de la Recherche Scientifique (CNRS), Université Grenoble Alpes, Olivier Vidal, Régis Olivès, and Centre National de la Recherche Scientifique (CNRS)-PRES Université de Grenoble-Université Joseph Fourier - Grenoble 1 (UJF)-Institut Français des Sciences et Technologies des Transports, de l'Aménagement et des Réseaux (IFSTTAR)-Institut national des sciences de l'Univers (INSU - CNRS)-Institut de recherche pour le développement [IRD] : UR219-Université Savoie Mont Blanc (USMB [Université de Savoie] [Université de Chambéry])
- Subjects
Régionalisation d'inventaire de cycle de vie ,Mineral resources ,Renewable energies ,[SDU.STU]Sciences of the Universe [physics]/Earth Sciences ,Computer ontology ,Regionalization of life cycle inventory ,Knowledge base ,Life cycle assessment ,Ressources énergétiques et minérales ,Ontologie informatique ,Base de connaissances ,Énergies renouvelables ,[SDU.STU] Sciences of the Universe [physics]/Earth Sciences ,Analyse de cycle de vie - Abstract
The energy transition is a decisive issue of the XXIth century, particularly in relation to the reduction of the harmful consequences of the climatic changes. However, this transition is subjected to several hazards : economic, geologic, social, environmental and geopolitical ones. In order to evaluate the vulnerability and the conditions of feasibility of the energy transition scenarios it is necessary to be able to evaluate the supply chain of the technologies related to the energy system, in the technological and but also geographical dimensions.The current studies such as the life cycle assessments (LCA) allow to take into account the supply chain in the technological dimension, but these studies do not provide or only few information about the geographical dimension. At the opposite, the Input-Output Analysis (IOA), particularly the multiregional ones (MRIO) provide an information about the regional exchanges by categories of products, but are very aggregated. The nomenclatures of the economical activities and the categories of products taken into account are restricted. The works realized within this thesis aim to exploit the best of each tool, i.e. the technological information from the LCA and the geographical information from the MRIO. A new methodology is proposed to regionalize the LCA inventory with the MRIO data. This methodology allows to use the geographical information of the LCA data when it exists or otherwise use the geographical information from MRIO to estimate it. A particular attention is paid to get a realistic model, i.e. to match the activities and the products with real geographical data.The tools produced in this thesis are the first step to evaluate the energy transition scenarios. Particularly, they allow to realize regionalized LCA inventories to evaluate the needs and impacts of the technologies involved in the energy transition. However, additional works are necessary to take into account the temporal dimension of the energy transition scenarios.The new method needs to manipulate a lot of different data from different sources. In order to manage these data a new collaborative web platform has been set up. It allows to manipulate the data through a web interface as well as uses them in calculation frameworks. In order to facilitate the evolution of the tools and the manipulation of the data, a work about how to structure and manipulate the information was realized. A new semantic architecture — called computer ontology — has been developed to facilitate the management of the knowledges but also the maintenance and the integration of new knowledges. The collaborative framework can fit the specifications for a one person usage or a community., La transition énergétique est un enjeu crucial du XXIème siècle, en particulier pour réduire les conséquences néfastes du changement climatique. Cependant, cette transition est sujette à de nombreux risques : économiques, géologiques, sociaux, environnementaux et géopolitiques. Afin de pouvoir évaluer la vulnérabilité et les conditions de faisabilité des scénarios de transition énergétique, il est nécessaire de pouvoir évaluer la chaine de valeur technologique et géographique des technologies impliquées dans le système énergétique.Les outils actuels tels que les analyses de cycle de vie (ACV) permettent de prendre en compte la chaine de valeur technologique, mais les données relatives aux ACV ne fournissent pas ou peu d’information sur la chaine de valeur géographique. Les modèle d’entrées-sorties économiques (IOA), en particulier ceux mutlirégionaux (MRIO), s’ils fournissent des données sur les échanges économiques bilatéraux, donc une estimation des échanges régionalisés, sont des modèles très agrégés. Les nomenclatures des activités économiques et des catégories de produits prisent en compte sont restreintes. Le travail réalisé au sein de cette thèse vise à exploiter les informations des outils ACV et MRIO, profitant des avantages de chacun, c’est à dire l’information technologique des premiers et l’information régionalisée des seconds. Une nouvelle méthodologie est proposée pour régionaliser les inventaires de cycle de vie d’ACV à partir des données MRIO. Cette méthodologie permet, à partir d’une base de données ACV de processus industriels, d’exploiter l’information géographique des processus lorsqu’elle existe et d’exploiter les informations d’échanges économiques bilatéraux des MRIO pour estimer cette information lorsqu’elle n’existe pas. Un soin particulier est pris afin de faire correspondre les activités et les produits selon leurs géographies.Les outils qui découlent de ces travaux sont la première étape à l’évaluation des scénarios de la transition énergétique. En particulier, ils permettent de réaliser des inventaires de cycle de vie régionalisés pour évaluer les besoins et les impacts des technologies impliquées dans la transition énergétique. Cependant, des travaux supplémentaires sont nécessaires pour prendre en compte la dimension temporelle des scénarios de transition énergétique.Cette nouvelle méthode nécessite l’usage de nombreuses données de sources différentes. Afin de gérer ces données, une plateforme internet collaborative a été mise en place, qui permet de dissocier la gestion des données de leur usage. Une réflexion sur la gestion de la donnée a amené à penser de manière différente la structure des données relatives à l’écologie industrielle. Une nouvelle architecture sémantique, aussi appelée ontologie, a été développée pour faciliter la gestion des données, mais aussi leur maintient et leur évolution dans le temps, que ce soit pour un utilisateur unique, ou dans le cadre d’une gestion collaborative.
- Published
- 2017
34. A Datalog+/-Domain-Specific Durum Wheat Knowledge Base
- Author
-
Arioua, Abdallah, Buche, Patrice, Croitoru, Madalina, Graphs for Inferences on Knowledge (GRAPHIK), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Ingénierie des Agro-polymères et Technologies Émergentes (UMR IATE), Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université Montpellier 2 - Sciences et Techniques (UM2)-Université de Montpellier (UM)-Institut National de la Recherche Agronomique (INRA), ANR-13-ALID-0002,Dur-Dur,Innovations agronomiques, techniques et organisationnelles au service de la DURabilité de la filière blé DUR(2013), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Inria Sophia Antipolis - Méditerranée (CRISAM), Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université Montpellier 2 - Sciences et Techniques (UM2)-Université de Montpellier (UM)-Institut National de la Recherche Agronomique (INRA), Project Dur-Dur (ANR-13-ALID-0002), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Université Montpellier 2 - Sciences et Techniques (UM2)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université de Montpellier (UM)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), and Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)
- Subjects
Conceptual graph ,Knowledge base ,Représentation des connaissances ,Knowledge representation ,Hard wheat ,Base de connaissances ,Formalism ,Formalisme ,Blé dur ,Graphe conceptuel ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
International audience; We consider the application setting where a domain-specific knowledge base about Durum Wheat has been constructed by knowledge engineers who are not experts in the domain. This knowledge base is prone to inconsistencies and incompleteness. The goal of this work is to show how the state of the art knowledge representation formalism called Datalog± can be used to cope with such problems by (1) providing inconsistency-tolerant techniques to cope with inconsistency, and (2) providing an expressive logical language that allows representing incomplete knowledge.
- Published
- 2016
- Full Text
- View/download PDF
35. Extraction de relations d'hyperonymie à partir de Wikipédia
- Author
-
Ghamnia, Adel, MEthodes et ingénierie des Langues, des Ontologies et du DIscours (IRIT-MELODI), Institut de recherche en informatique de Toulouse (IRIT), Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées, Institut National Polytechnique de Toulouse - INPT (FRANCE), Centre National de la Recherche Scientifique - CNRS (FRANCE), Université Toulouse III - Paul Sabatier - UT3 (FRANCE), Université Toulouse - Jean Jaurès - UT2J (FRANCE), Université Toulouse 1 Capitole - UT1 (FRANCE), and Institut National Polytechnique de Toulouse - Toulouse INP (FRANCE)
- Subjects
Logique en informatique ,Patrons morpho-syntaxiques ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Base de connaissances ,[INFO.INFO-LO]Computer Science [cs]/Logic in Computer Science [cs.LO] ,Informatique et langage ,Intelligence artificielle ,Extraction de relations d'hyperonymie ,Apprentissage ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
National audience; Ce travail contribue à montrer l'intérêt d'exploiter la structure des documents accessibles sur le Web pour enrichir des bases de connaissances sémantiques. En effet, ces bases de connaissances jouent un rôle clé dans de nombreuses applications du TAL, Web sémantique, recherche d'information, aide au diagnostic, etc. Dans ce contexte, nous nous sommes intéressés ici à l'identification des relations d'hyperonymie présentes dans les pages de désambiguïsation de Wikipédia. Un extracteur de relations d'hyperonymie dédié à ce type de page et basé sur des patrons lexico-syntaxiques a été conçu, développé et évalué. Les résultats obtenus indiquent une précision de 0.68 et un rappel de 0.75 pour les patrons que nous avons définis, et un taux d'enrichissement de 33% pour les deux ressources sémantiques BabelNet et DBPédia.
- Published
- 2016
36. Extraction de relations d'hyperonymie à partir de documents semi-structurés (Works-Web 2016)
- Author
-
Ghamnia, Adel, MEthodes et ingénierie des Langues, des Ontologies et du DIscours (IRIT-MELODI), Institut de recherche en informatique de Toulouse (IRIT), Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées, Equipe de recherche 'Intégration de Réseaux d’Information', LAMOLLE, Myriam, and Grélaud, Françoise
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,Patrons morphosyntaxiques ,Base de connaissances ,Extraction de relations d'hyperonymie ,ComputingMilieux_MISCELLANEOUS ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
International audience
- Published
- 2016
37. DALEK: A Tool for Dialectical Explanations in Inconsistent Knowledge Bases
- Author
-
Arioua, Abdallah, Croitoru, Madalina, Buche, Patrice, Ingénierie des Agro-polymères et Technologies Émergentes (UMR IATE), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Université Montpellier 2 - Sciences et Techniques (UM2)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université de Montpellier (UM)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro), Graphs for Inferences on Knowledge (GRAPHIK), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), QUALINCA (ANR-12-0012), DURDUR (ANR-13-ALID-0002), ANR-12-CORD-0012,Qualinca,Qualité et interopérabilité de grands catalogues documentaires(2012), ANR-13-ALID-0002,Dur-Dur,Innovations agronomiques, techniques et organisationnelles au service de la DURabilité de la filière blé DUR(2013), Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université Montpellier 2 - Sciences et Techniques (UM2)-Université de Montpellier (UM)-Institut National de la Recherche Agronomique (INRA), and Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Inria Sophia Antipolis - Méditerranée (CRISAM)
- Subjects
Applications of Argumentation ,Explanation and Argumentation Dialogues ,Datalog + ,analyse sémantique ,Argumentation Theory ,langage de représentation ,Artificial Intelligence ,Explanation ,base de connaissances ,Intelligence artificielle ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
International audience; In this paper we present a prototype of a framework called dalek (DiALectical Explanation in Knowledge-bases). This framework implements dialectical approaches to explain query answers in inconsistent knowledge bases. The motivation behind the prototype is as follows: given an inconsistent knowledge base represented within Datalog +/-, a semantics for handling inconsistency and a query Q, the goal is to explain why Q is accepted or not accepted under such semantics. The explanation takes a dialogical form (cf. [1,3]).
- Published
- 2016
- Full Text
- View/download PDF
38. L’anglais de spécialité en chimie organique : entre indétermination terminologique et multidimensionnalité
- Author
-
Sandrine Peraldi
- Subjects
Linguistics and Language ,Philosophy ,analyse définitoire ,defining analysis ,indeterminacy ,Language and Linguistics ,indétermination ,organic chemistry ,textual terminology ,multidimensionnalité ,base de connaissances ,chimie organique ,terminologie textuelle ,variation terminologique ,knowledge base ,multidimensionality ,terminological variation ,Humanities - Abstract
Cet article porte sur une langue de spécialité relativement peu étudiée en anglais : celle de la chimie organique. Le discours de spécialité chimique est analysé à travers la mise en évidence de deux phénomènes linguistiques également méconnus : l’indétermination terminologique et la multidimensionnalité dans les sciences exactes. En effet, malgré la présence d’une nomenclature en chimie, une exploration textuelle outillée d’un double corpus, associée à une analyse componentielle revisitée des énoncés définitoires de certains termes clés a permis d’établir clairement que ces derniers étaient non seulement imprécis, mais qu’ils ne se prêtaient pas à une approche conceptuelle et logique des unités linguistiques. L’auteur montre également que cette indétermination est partiellement compensée par une très forte créativité lexicale, une structuration conceptuelle extrêmement dense et une construction sémantique des termes par incrémentation. Néanmoins, ce fonctionnement par stratification est également à l’origine de la multidimensionnalité latente du domaine et donc des nombreuses difficultés de classification et de représentation notionnelles de la discipline. This paper focuses on a relatively unexplored field of research within English for Specific Purposes: that of organic chemistry. The specialized discourse of chemistry is analyzed through the identification of two specific linguistic phenomena that are also often overlooked: terminological indeterminacy and multidimensionality within exact sciences. Indeed, despite the existence of a chemical nomenclature, the exploration (through a concordancer) of a double corpus combined with a fresh perspective on the componential analysis of certain definitions and a semantic breakdown around key terms shows that certain terminological units are imprecise and do not allow for a conceptual and ontological approach. The author also shows that this terminological and notional indeterminacy is partly offset by a very strong lexical creativity, an extremely dense conceptual organization and layered semantic constructions. However, these phenomena also lead to strong multidimensionality within the field and many difficulties regarding conceptual organization and representation.
- Published
- 2012
- Full Text
- View/download PDF
39. A reconciliation-driven approach of case-based prediction: state of the art, method overview and application in food science
- Author
-
Saïs, Fatiha, Thomopoulos, Rallou, Laboratoire de Recherche en Informatique (LRI), Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), Données et Connaissances Massives et Hétérogènes (LRI) (LaHDAK - LRI), Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), Ingénierie des Agro-polymères et Technologies Émergentes (UMR IATE), Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université Montpellier 2 - Sciences et Techniques (UM2)-Université de Montpellier (UM)-Institut National de la Recherche Agronomique (INRA), Graphs for Inferences on Knowledge (GRAPHIK), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Université Montpellier 2 - Sciences et Techniques (UM2)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université de Montpellier (UM)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro), and Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Inria Sophia Antipolis - Méditerranée (CRISAM)
- Subjects
[INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB] ,méthode de prédiction ,aide à la décision ,prediction ,information integration ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,pâte alimentaire ,base de connaissances ,gestion de la qualité ,case-based reasoning ,[INFO]Computer Science [cs] ,reasoning from knowledge ,data reconciliation ,ontologie ,industrie des céréales - Abstract
International audience; This chapter proposes an approach to generate predictions for decision support issues. It relies on case-based and reconciliation methods, using an ontology. The objective of the chapter is to provide an overview of the state of the art, but also to describe the proposed method and to illustrate it on a concrete application. In this approach, a reconciliation stage identifies groups of rules expressing a common experimental tendency. A prediction stage generates new rules, using both experimental tendencies obtained in the previous stage and new experimental descriptions. The method has been tested within a case study concerning food quality management. It has been compared to a classic predictive approach, leading to promising results in terms of accuracy, completeness and error rate.
- Published
- 2015
40. Revues académiques : nouvelles opportunités pour la visibilité des articles. Le cas de la diffusion des métadonnées de la Revue scientifique et technique de l'OIE
- Author
-
Verrier, Romuald, Institut national des techniques de la documentation (INTD-CNAM), Conservatoire National des Arts et Métiers [CNAM] (CNAM), INTD-CNAM-Institut national des techniques de la documentation, and Ghislaine Chartron
- Subjects
PubMed ,DOI dataCite ,Résolveur de liens ,CrossRef ,FRANCE ,KBART ,Identifiant ,OAI-PMH ,DOI ,Interopérabilité ,Base de connaissances ,Structuration de données ,Xslt ,[SHS.INFO.DOCU]Humanities and Social Sciences/Library and information sciences/domain_shs.info.docu ,Alexandrie ,Information scientifique et technique ,Metadonnée ,Donnée bibliographique ,Revue scientifique et technique de l'OIE ,Visibilité ,Dublin Core ,Périodique ,Libre accès ,Référencement naturel ,Echange bibliographique ,Revue électronique - Abstract
Ce mémoire examine comment l'exploitation d'outils de gouvernance des métadonnées permet d'accroître la présence en ligne et la visibilité d'une revue académique numérique. Après un bref aperçu des évolutions récentes dans le monde des revues académiques, l'auteur présente la façon dont la Revue scientifique et technique de l'OIE peut bénéficier de l'interopérabilité des métadonnées en s'appuyant sur son portail documentaire. L'auteur examine l'impact des moteurs de recherche, des bases d'indexation, des bases de connaissances, des outils de citation et des réseaux sociaux professionnels, et présente la mise en oeuvre de solutions : SEO, DOI, flux XML, OAI-PMH, KBART et politique de libre accès. Ce mémoire pourra intéresser les éditeurs, bibliothécaires, intermédiaires commerciaux et tout professionnel confronté aux métadonnées de revue académique.
- Published
- 2015
41. Interface tactile pour la saisie de règles dans un système expert flou
- Author
-
Laurent, Jean-Paul, Guillon, Bastien, Poli, Jean-Philippe, Laboratoire d'Intégration des Systèmes et des Technologies (LIST), Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA), and Laboratoire d'Intégration des Systèmes et des Technologies (LIST (CEA))
- Subjects
système expert flou ,saisie de règles ,base de connaissances ,Tactile ,ACM: H.: Information Systems/H.5: INFORMATION INTERFACES AND PRESENTATION (e.g., HCI)/H.5.2: User Interfaces ,[INFO]Computer Science [cs] ,[INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC] ,logique floue ,interaction homme-machine - Abstract
International audience; Dans de nombreux logiciels d'intelligence artificielle, comme par exemple les systèmes experts, il est nécessaire qu'un utilisateur saisisse des connaissances sous différentes formes. En particulier, dans les systèmes experts flous, il s'agit de règles de la forme SI...ALORS... manipulant des concepts linguistiques plutôt que des opérateurs mathématiques. Nous présentons dans cet article une interface graphique moderne permettant la saisie des règles dans un système expert flou s'appuyant sur l'usage naturel du glisser-déposer sur des surfaces tactiles comme des tablettes.
- Published
- 2015
42. Interface tactile pour la saisie guidée de connaissances
- Author
-
Jean-Philippe Poli, Jean-Paul Laurent, Laboratoire d'analyse des données et d'intelligence des systèmes (LADIS), Département Métrologie Instrumentation & Information (DM2I), Laboratoire d'Intégration des Systèmes et des Technologies (LIST), Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay-Laboratoire d'Intégration des Systèmes et des Technologies (LIST), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay, Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA), Cette recherche a été soutenue par BPI-France dans le cadre du projet EDENS (Eco-District Energy Network Systems)., Laboratoire Information, Modèles, Apprentissage [Gif-sur-Yvette] (LIMA), Laboratoire d'Intégration des Systèmes et des Technologies (LIST (CEA)), and Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay-Laboratoire d'Intégration des Systèmes et des Technologies (LIST (CEA))
- Subjects
Computer science ,Interface (Java) ,online learning ,ACM: H.: Information Systems/H.5: INFORMATION INTERFACES AND PRESENTATION (e.g., HCI)/H.5.2: User Interfaces ,02 engineering and technology ,Fuzzy logic ,Field (computer science) ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,knowledge-based systems ,Human–computer interaction ,020204 information systems ,base de connaissances ,0202 electrical engineering, electronic engineering, information engineering ,[INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC] ,interaction homme-machine ,Fuzzy rule ,logique floue ,business.industry ,Classical logic ,touch devices ,Usability ,Legal expert system ,interactions ,artificial intelligence ,machine learning ,saisie de règles ,Tactile ,020201 artificial intelligence & image processing ,fuzzy logic ,business ,Natural language ,système expert flou - Abstract
International audience; In recent years, artificial intelligence tools have democratized and are increasingly used by people who are not experts in the field. These artificial intelligence tools, like rule-based or constraint-based systems require the input of human expertise to replicate the desired reasoning. Despite the explosion of new devices and new input paradigms, such as tablets and other touch interfaces, it seems that the usability of these tools have not taken advantage of these recent advances. In this article, we illustrate our concept with the rule edition in a fuzzy expert system. The special feature of fuzzy logic is that these rules look closer to natural language than classical logic. We present our work that involves the use of new touch interfaces to edit a fuzzy rule base with one finger. We end this section by the evaluation of the interface with a user panel.; Au cours de ces dernières années, les outils d'intelligence artificielle se sont démocratisés et sont de plus en plus sou-vent utilisés par des personnes qui ne sont pas expertes du domaine. Parmi ces outils d'intelligence artificielle, les systèmes à base de règles ou de contraintes nécessitent la saisie de l'expertise humaine afin de reproduire le comporte-ment souhaité. Malgré l'explosion des nouveaux périphé-riques et de nouveaux paradigmes de saisie, comme les tablettes et autres interfaces tactiles, l'ergonomie de ces outils semble ne pas avoir profité de toutes ces avancées récentes. Dans cet article, nous prenons l'exemple d'un système expert flou pour lequel il faut rédiger des règles. La particu-larité de la logique floue est que ces règles sont construites d'une manière plus proche du langage naturel qu'en lo-gique classique. Nous présentons notre travail qui consiste en l'exploitation des nouvelles interfaces tactiles afin de rédiger une base de règles floues avec un seul doigt. Nous terminons cet article par l'évaluation de l'interface auprès d'un panel d'utilisateurs.
- Published
- 2015
- Full Text
- View/download PDF
43. Information indexing and recommendation : toward a precise description if items by an ontological approach based on business domain modeling : application to recommander system of economic news
- Author
-
Werner, David, Laboratoire Electronique, Informatique et Image ( Le2i ), Université de Bourgogne ( UB ) -AgroSup Dijon - Institut National Supérieur des Sciences Agronomiques, de l'Alimentation et de l'Environnement-Centre National de la Recherche Scientifique ( CNRS ), Université de Bourgogne, Christophe Cruz, Aurélie Bertaux, Laboratoire Electronique, Informatique et Image [UMR6306] (Le2i), Université de Bourgogne (UB)-Centre National de la Recherche Scientifique (CNRS)-École Nationale Supérieure d'Arts et Métiers (ENSAM), Arts et Métiers Sciences et Technologies, HESAM Université (HESAM)-HESAM Université (HESAM)-Arts et Métiers Sciences et Technologies, HESAM Université (HESAM)-HESAM Université (HESAM)-AgroSup Dijon - Institut National Supérieur des Sciences Agronomiques, de l'Alimentation et de l'Environnement, and STAR, ABES
- Subjects
[INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB] ,Ontology ,Sémantique ,Ontologie ,Economy ,News ,Économie ,Reasoner ,Actualités ,Knowledge base ,[ INFO.INFO-DB ] Computer Science [cs]/Databases [cs.DB] ,Base de connaissances ,Systèmes de recommandation ,Raisonneur ,Recommender systems ,[INFO.INFO-DB] Computer Science [cs]/Databases [cs.DB] ,Semantic - Abstract
Effective management of large amounts of information has become a challenge increasinglyimportant for information systems. Everyday, new information sources emerge on the web. Someonecan easily find what he wants if (s)he seeks an article, a video or a specific artist. However,it becomes quite difficult, even impossible, to have an exploratory approach to discover newcontent. Recommender systems are software tools that aim to assist humans to deal withinformation overload. The work presented in this Phd thesis proposes an architecture for efficientrecommendation of news. In this document, we propose an architecture for efficient recommendationof news articles. Our ontological approach relies on a model for precise characterization of itemsbased on a controlled vocabulary. The ontology contains a formal vocabulary modeling a view on thedomain knowledge. Carried out in collaboration with the company Actualis SARL, this work has ledto the marketing of a new highly competitive product, FristECO Pro’fil., La gestion efficace de grandes quantités d’informations est devenue un défi de plus en plus importantpour les systèmes d’information. Tous les jours, de nouvelles sources d’informations émergent surle web. Un humain peut assez facilement retrouver ce qu’il cherche, lorsqu’il s’agit d’un article,d’une vidéo, d’un artiste précis. En revanche, il devient assez difficile, voire impossible, d’avoir unedémarche exploratoire pour découvrir de nouveaux contenus. Les systèmes de recommandationsont des outils logiciels ayant pour objectif d’assister l’humain afin de répondre au problème desurcharge d’informations. Les travaux présentés dans ce document proposent une architecturepour la recommandation efficace d’articles d’actualité. L’approche ontologique utilisée repose surun modèle permettant une qualification précise des items sur la base d’un vocabulaire contrôlé.Contenu dans une ontologie, ce vocabulaire constitue une modélisation formelle de la vue métier surle domaine traité. Réalisés en collaboration avec la société Actualis SARL, ces travaux ont permis lacommercialisation d’un nouveau produit hautement compétitif, FristECO Pro’fil.
- Published
- 2015
44. Multilingual document classification via transductive learning
- Author
-
Romeo, S., Ienco, D., Andrea Tagarelli, Dipartimento di Ingegneria Informatica, Modellistica, Elettronica e Sistemistica [Calabria] (DIMES), Università della Calabria [Arcavacata di Rende] (Unical), Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA), and Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA)-AgroParisTech-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)
- Subjects
BASE DE CONNAISSANCES ,[SDE]Environmental Sciences ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,TRADUCTION ,TELEDETECTION ,LINGUISTIQUE ,MODELISATION ,CLASSIFICATION - Abstract
6th Italian Information Retrieval Workshop, Cagliari, ITA, 25-/05/2015 - 26/05/2015; International audience; We present a transductive learning based framework for multilingual document classification, originally proposed in [7]. A key aspect in our approach is the use of a large-scale multilingual knowledge base, BabelNet, to support the modeling of different language-written documents into a common conceptual space, without requiring any language translation process. Results on real-world multilingual corpora have highlighted the superiority of the proposed document model against existing language-dependent representation approaches, and the significance of the transductive setting for multilingual document classification.
- Published
- 2015
45. Représentation à base de connaissance pour une méthode de classification transductive de document multilangue
- Author
-
Romeo, S., Ienco, D., Tagarelli, A., Universita Mediterranea of Reggio Calabria [Reggio Calabria], Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA), Dipartimento di Ingegneria Informatica, Modellistica, Elettronica e Sistemistica [Calabria] (DIMES), Università della Calabria [Arcavacata di Rende] (Unical), ADVanced Analytics for data SciencE (ADVANSE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), and Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)
- Subjects
[INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB] ,BASE DE CONNAISSANCES ,Multilingual classification ,Knowledge-base ,MODELISATION ,CLASSIFICATION ,KNOWLEDGE BASE ,ComputingMethodologies_PATTERNRECOGNITION ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,LINGUISTICS ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,[SDE]Environmental Sciences ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,Transductive learning ,TRADUCTION ,ACM: H.: Information Systems/H.3: INFORMATION STORAGE AND RETRIEVAL/H.3.3: Information Search and Retrieval/H.3.3.4: Retrieval models ,TELEDETECTION ,LINGUISTIQUE - Abstract
International audience; Multilingual document classification is often addressed by approaches that rely on language-specific resources (e.g., bilingual dictionaries and machine translation tools) to evaluate cross-lingual document similarities. However, the required transformations may alter the original document semantics, raising additional issues to the known difficulty of obtaining high-quality labeled datasets. To overcome such issues we propose a new framework for multilingual document classification under a transductive learning setting. We exploit a large-scale multilingual knowledge base, BabelNet, to support the modeling of different language-written documents into a common conceptual space, without requiring any language translation process. We resort to a state-of-the-art transductive learner to produce the document classification. Results on two real-world multilingual corpora have highlighted the effectiveness of the proposed document model w.r.t. document representations usually involved in multilingual and cross-lingual analysis, and the robustness of the transductive setting for multilingual document classification.
- Published
- 2015
- Full Text
- View/download PDF
46. Test de cohérence des données pour un système expert d'aide au diagnostic de pannes
- Author
-
Karaouzene, Zoheir, Cheikh, Abdelmajid, and Sciencesconf.org, CCSD
- Subjects
Problèmes SAT ,Algorithme DPLL ,Diagnostic de pannes ,Base de connaissances ,[SPI.OTHER] Engineering Sciences [physics]/Other ,Système expert - Abstract
Les systèmes d'aide au diagnostic de pannes matériels qui sont généralement des systèmes experts, permettent d'accélérer l'identification d'une panne donc de l'éviter ou de minimiser les dégâts matériels et humains. La plupart des recherches se sont focalisées uniquement sur la partie décision, mais la cohérence de la base de connaissance est un sujet important pour faire un raisonnement logique et valide, car les problèmes de l'incohérence peuvent donner des résultats incorrects ou des contradictions internes. Afin de remédier à de telles situations, nous proposons une méthode pour la vérification de la cohérence des données. Cette méthode utilise une approche de l'intelligence artificielle pour transformer le problème de test de cohérence en un problème de satisfiabilité (SAT). La mise en oeuvre de la méthode proposée est réalisée à l'aide d'une adaptation de l'algorithme DPLL qui a été testée sur un cas réel dont les données sont fournies par une minoterie. Les résultats semblaient logiques et très encourageants.
- Published
- 2015
47. Lignines et parois végétales : recueil documentaire 'ReDoc': Volume 3 , révisé, complet, 'C'
- Author
-
Monties, Bernard and Independent Researcher
- Subjects
recueil Documentaire 'ReDoc' ,electronic édition ,édition électronique ,Data base ,e-book ,bibliothèque de fichiers numériques ,base de connaissances ,[SDV]Life Sciences [q-bio] ,documentary recollection 'ReDoc' ,knowledge base ,numeric file library 'ReDoc' ,Livrel - Abstract
National audience; Main scientific interest, principles and procedures of organisation of numerized ‘data-base’ as 'source of knowledges' were critically described in the special issue of « Cellulose Chemistry and Technology, 2006, 40 (9-10) : 685-690 » focussed on lignin and plant cell walls chemistry and technology, outlined by some glance on the emergence of scientific concepts in the cases of cellulose, lignin and plants cell wall chemistry. A free public acces of this paper in Prodinra, is paper is freely at « http://prodinra.inra.fr/record/32691 ». The corresponding practical organisation of the related sets of electronic files as ‘documentary recollection’, named ReDoc for ‘Recueil documentaire’ in French, developed at INRA are illustrated here in one of the complete four specific domains 'C', biological chemistry, of the ReDoc data base.
- Published
- 2015
48. La gestion des connaissances en entreprise
- Author
-
Vernet, Maud and Univ Lille, SID
- Subjects
Base de connaissances ,Gestion des connaissances ,Gestion électronique de documents GED ,[SHS.INFO] Humanities and Social Sciences/Library and information sciences - Abstract
Mémoire sur la gestion des connaissances en entreprise. La gestion des connaissances est essentielle pour les entreprises. Elle permet de créer des connaissances explicites à partir des connaissances tacites accumulées grâce à l'expérience. Différents outils permettent d'aider les organisations à gérer leurs connaissances. Ils doivent permettre une recherche d'information rapide. C'est pourquoi les documents doivent être bien indexés. Cimail Solutions utilise le logiciel de GED SharePoint 2013 pour la gestion de ses connaissances par le biais de bibliothèques de documents et d'une base de connaissances. L'évaluation de SharePoint menée dans ce mémoire permet de rendre compte de l'efficacité de ce logiciel en matière d'indexation et donc de gestion des connaissances.
- Published
- 2015
49. Automatiser la construction de règles de corrélation : prérequis et processus
- Author
-
Godefroy, E, Totel, E, Hurfin, M, Majorczyk, F, Maaroufi, A, DGA Maîtrise de l'information (DGA.MI), Direction générale de l'Armement (DGA), Confidentialité, Intégrité, Disponibilité et Répartition (CIDRE), CentraleSupélec-Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-SYSTÈMES LARGE ÉCHELLE (IRISA-D1), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), CentraleSupélec-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-CentraleSupélec-Télécom Bretagne-Université de Rennes 1 (UR1), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-École normale supérieure - Rennes (ENS Rennes)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA), Hurfin, Michel, Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), and Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Télécom Bretagne-Centre National de la Recherche Scientifique (CNRS)
- Subjects
scenario d'attaque ,[INFO.INFO-CR]Computer Science [cs]/Cryptography and Security [cs.CR] ,base de connaissances ,taxonomie des attaques ,[INFO.INFO-CR] Computer Science [cs]/Cryptography and Security [cs.CR] ,corrélation d'alertes explicite - Abstract
National audience; Les systèmes d'entreprise sont aujourd'hui composés de plusieurs dizaines, centaines ou milliers d'entités communiquant potentiellement avec des machines externes inconnues. Dans ces systèmes de nombreux détecteurs, sondes et IDS sont déployés et inondent les systèmes de supervision de messages et d'alertes. La problématique d'un administrateur en charge de la supervision est alors de détecter des motifs d'attaques contre le système au sein de ce flot de notifications. Pour cela, il dispose d'outils de corrélation permettant d'identifier des scénarios complexes à partir de ces notifications de bas niveau. Cependant, la spécification de ces scénarios demande d'avoir au préalable construit les règles de corrélation adéquates. Ce papier se focalise sur une méthode de génération de règles de corrélation et des prérequis nécessaires à cette opération. Il évalue ensuite le travail requis pour obtenir de telles règles dans le cas d'un processus de génération automatisé.
- Published
- 2014
50. Génération automatique de règles de corrélation pour la détection d'attaques complexes
- Author
-
Godefroy, Erwan, Totel, Eric, Majorczyk, Frédéric, Hurfin, Michel, DGA Maîtrise de l'information (DGA.MI), Direction générale de l'Armement (DGA), Confidentialité, Intégrité, Disponibilité et Répartition (CIDRE), CentraleSupélec-Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-SYSTÈMES LARGE ÉCHELLE (IRISA-D1), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Télécom Bretagne-Centre National de la Recherche Scientifique (CNRS), European Project: FP7 - GA 610416, CentraleSupélec-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-CentraleSupélec-Télécom Bretagne-Université de Rennes 1 (UR1), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-École normale supérieure - Rennes (ENS Rennes)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), and Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)
- Subjects
[INFO.INFO-CR]Computer Science [cs]/Cryptography and Security [cs.CR] ,langage de corrélation ,base de connaissances ,corrélation d'alertes ,IDS ,scénario d'attaque ,arbres d'attaque - Abstract
National audience; Dans les systèmes d'information répartis, des systèmes de corrélation sont nécessaires pour traiter le grand nombre d'alertes de sécurité élémentaires et y identifier des motifs d'attaques complexes. Cependant, la complexité du système rend difficile l'écriture de règles de corrélation à la fois précises et correctes. Dans ce papier, on se propose de montrer qu'il est possible, à partir d'un arbre d'attaque construit par un expert, de générer automatique-ment des règles de corrélation exhaustives qui seraient fastidieuses et difficiles à énumérer à la main. Les règles de corrélation ainsi générées sont étroitement liées aux caractéristiques du système surveillé (topologie, services déployés, etc.). Ce processus de transformation est implémenté dans un prototype générant des règles de corrélation exprimées dans le langage de description d'attaque ADeLe.
- Published
- 2014
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.