40 results on '"Base de connaissances"'
Search Results
2. ChloroKB, a cell metabolism reconstruction of the model plant Arabidopsis thaliana.
- Author
-
Gloaguen, Pauline, Vandenbrouck, Yves, Joyard, Jacques, and Curien, Gilles
- Subjects
- *
CELL metabolism , *METABOLIC models , *PLANT metabolism , *CELL physiology , *WEB-based user interfaces - Abstract
Can we understand how plant cell metabolism really works? An integrated large-scale modelling of plant metabolism predictive model would make possible to analyse the impact of disturbances in environmental conditions on cellular functioning and diversity of plant-made molecules of interest. ChloroKB, a Web application initially developed for exploration of Arabidopsis chloroplast metabolic network now covers Arabidopsis mesophyll cell metabolism. Interconnected metabolic maps show subcellular compartments, metabolites, proteins, complexes, reactions, and transport. Data in ChloroKB have been structured to allow for mathematical modelling and will be used as a reference for modelling work dedicated to a particular issue. [ABSTRACT FROM AUTHOR]
- Published
- 2021
- Full Text
- View/download PDF
3. Construction productivity fuzzy knowledge base management system.
- Author
-
Elwakil, Emad and Zayed, Tarek
- Subjects
- *
CONSTRUCTION project management , *PROJECT management , *KNOWLEDGE management , *FUZZY control systems , *CONSTRUCTION industry , *EQUIPMENT & supplies - Abstract
Construction companies need a knowledge management system to collate, share and ultimately apply this knowledge in various projects. One of the most important elements that determine the time estimates of any construction project is productivity. Such projects have a predilection towards uncertainty and therefore require new generation of prediction models that utilizes available historical data. The research presented in this paper develops, using fuzzy approach, a knowledge base to analyze, extract and infer any underlying patterns of the data sets to predict the duration and productivity of a construction process. A six-step protocol has been followed to create this model: ( i) determine which factors affect productivity; ( ii) select those factors that are critical; ( iii) build the fuzzy sets; ( iv) generate the fuzzy rules and models; ( v) develop the fuzzy knowledge base; and ( vi) validate the efficacy and function of these models in predicting the productivity construction process. The fuzzy knowledge base was validated and verified using a case study and the results were satisfactory with 92.00% mean validity. In conclusion, the developed models and system demonstrated the ability of a knowledge base management to predict the patterns and productivity of different construction operations. [ABSTRACT FROM AUTHOR]
- Published
- 2018
- Full Text
- View/download PDF
4. Vers une démarche ontologique pour la gestion des bases de données en agroforesterie
- Author
-
Conde Salazar, Raphaël, Botanique et Modélisation de l'Architecture des Plantes et des Végétations (UMR AMAP), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche pour le Développement (IRD [France-Sud])-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), Université de Montpellier (UM), FRA, Isabelle Mougenot, Université de Montpellier, Directrice de thèse, and Alexia Stokes, UMR AMAP, INRAE, Directrice de thèse
- Subjects
[SDV.SA]Life Sciences [q-bio]/Agricultural sciences ,Ontology ,Web semantic ,Ontologie ,Agroforesterie ,[SDV.BV.BOT]Life Sciences [q-bio]/Vegetal Biology/Botanics ,[SDV.BID.SPT]Life Sciences [q-bio]/Biodiversity/Systematics, Phylogenetics and taxonomy ,Knowledge base ,[SDV.EE.ECO]Life Sciences [q-bio]/Ecology, environment/Ecosystems ,Base de connaissances ,[SDE]Environmental Sciences ,[INFO]Computer Science [cs] ,Web sémantique ,Agroforestry ,[SDE.BE]Environmental Sciences/Biodiversity and Ecology - Abstract
In a general context of sustainable development, research on agroforestry takes on its full meaning by making plant-plant interactions intelligible in a potentially degraded environment. For several years now, data from field observations have been acquired in partnership with several categories of stakeholders (in particular foresters, farmers and breeders). It is now a question of opening these data and making them available from the web to other communities. Moreover, studies conducted in agroforestry require systemic approaches in order to better understand, for example, the resilience mechanisms of plants to climate change or soil pollution. It is also necessary to make the data linkable to other data sets related to climate and territories. The double challenge of sharing and linking data in agroforestry brings us closer to what is practiced today within the semantic web with different tools and methods to promote the sharing of open and linked data sources. Semantic web technologies provide standard mechanisms to describe and access resources on the web. The work of this thesis is part of this framework, we reuse standard formats of the semantic web and exploit a range of ontologies both frameworks, domains and terminologies to propose a knowledge model, open and flexible to account for the complexity of data already collected in agroforestry. This model is composed of a domain ontology named "Agroforestry". The importance is given to the publication of perfectly described data by privileging the ability to link these data to data already available on the web (climatic data, soil profiles, data on the functioning of plant communities, etc.). We have also built a terminological ontology dedicated to agroforestry called "AgroforestryVoc". Eventually, this ontology will be dedicated to the linguistic qualification of key concepts shared by the whole community and will be made public on the "AgroPortal" (http://agroportal.lirmm.fr/). The last parts of the thesis work focus on the interpretation of the results obtained from the data interconnection. The "Agroforestry" domain ontology, formalized in OWL 2, is built in such a way as to be able to reason about the integrated data set. The objective is therefore to highlight trends in associations between trees and crops in land use by applying inferential mechanisms on the ontology.; Dans un contexte général de développement durable, les recherches menées autour de l’agroforesterie prennent tout leur sens en rendant intelligibles les interactions plante-plante dans un environnement pouvant être dégradé.Depuis plusieurs années maintenant, des données issues d’observations sur le terrain sont acquises en partenariat avec plusieurs catégories d’acteurs (en particulier des forestiers, agriculteurs et éleveurs). Il s’agit maintenant d’ouvrir ces données et de les rendre disponibles depuis le web à d’autres communautés. De plus, les études menées en agroforesterie nécessitent des approches systémiques pour par exemple mieux comprendre les mécanismes de résilience des plantes face aux changements climatiques ou encore face à la pollution des sols. Il s’agit également de rendre les données liables à d’autres jeux de données relatifs au climat et aux territoires. Le double enjeu de partage et d’interconnexion des données en agroforesterie nous rapproche de ce qu’il se pratique aujourd’hui au sein du web sémantique avec différents outils et méthodes à même de promouvoir la mutualisation de sources de données ouvertes et liées. Les techno! logies du web sémantique fournissent les mécanismes standards pour décrire et accéder aux ressources présentes sur le Web.Le travail de thèse s’inscrit dans ce cadre, nous réutilisons les formats standards du web sémantique et exploitons un éventail d’ontologies à la fois cadres, de domaines et terminologiques afin de proposer un modèle de connaissances, ouvert et flexible à même de rendre compte de la complexité des données déjà collectées en agroforesterie. Ce modèle se compose d’une ontologie de domaine nommée "Agroforestry". L’importance est donnée à la publication de données parfaitement décrites en privilégiant la mise en capacité de lier ces données à des données déjà disponibles sur le web (données climatiques, profils pédologiques, données sur le fonctionnement de communautés végétales, etc.). Nous avons aussi construit une ontologie terminologique dédiée à l’agroforesterie nommée "AgroforestryVoc". A terme, cette ontologie se consacrera à la qualification linguistique des concepts clés partagés par toute la communauté et sera rendue pu! blique sur le portail "AgroPortal" (http://agroportal.lirmm.fr/).Les derniers volets du travail de thèse se concentrent sur l’interprétation des résultats dégagés sur la base de l’interconnexion des données. L’ontologie de domaine "Agroforestry", formalisée enOWL2, est construite de manière à pouvoir raisonner sur l’ensemble des données intégrées. L’objectif est donc de faire ressortir des tendances relatives aux associations entre arbres et plantes cultivées dans l’exploitation des terres par mise en application de mécanismes inférentiels sur l’ontologie.
- Published
- 2021
5. Adaptation au domaine de plongements lexicaux via l'exploitation de corpus et de bases de connaissances spécialisés
- Author
-
El Boukkouri, Hicham, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, Pierre Zweigenbaum, Olivier Ferret, and Thomas Lavergne
- Subjects
Adaptation au domaine ,Knowledge Base ,Medical Domain ,Word Embeddings ,Traitement automatique des langues ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Specialized Domain ,Base de connaissances ,Domaine médical ,Plongements lexicaux ,Domaine spécialisé ,Domain Adaptation ,Natural Language Processing - Abstract
There are, at the basis of most NLP systems, numerical representations that enable the machine to process, interact with and—to some extent—understand human language. These “word embeddings” come in different flavours but can be generally categorised into two distinct groups: on one hand, static embeddings that learn and assign a single definitive representation to each word; and on the other, contextual embeddings that instead learn to generate word representations on the fly, according to a current context. In both cases, training these models requires a large amount of texts. This often leads NLP practitioners to compile and merge texts from multiple sources, often mixing different styles and domains (e.g. encyclopaedias, news articles, scientific articles, etc.) in order to produce corpora that are sufficiently large for training good representations. These so-called “general domain” corpora are today the basis on which most word embeddings are trained, greatly limiting their use in more specific areas. In fact, “specialized domains” like the medical domain usually manifest enough lexical, semantic and stylistic idiosyncrasies (e.g. use of acronyms and technical terms) that general-purpose word embeddings are unable to effectively encode out-of-the-box. In this thesis, we explore how different kinds of resources may be leveraged to train domain-specific representations or further specialise preexisting ones. Specifically, we first investigate how in-domain corpora can be used for this purpose. In particular, we show that both corpus size and domain similarity play an important role in this process and propose a way to leverage a small corpus from the target domain to achieve improved results in low-resource settings. Then, we address the case of BERT-like models and observe that the general-domain vocabularies of these models may not be suited for specialized domains. However, we show evidence that models trained using such vocabularies can be on par with fully specialized systems using in-domain vocabularies—which leads us to accept re-training general domain models as an effective approach for constructing domain-specific systems. We also propose CharacterBERT, a variant of BERT that is able to produce word-level open-vocabulary representations by consulting a word's characters. We show evidence that this architecture leads to improved performance in the medical domain while being more robust to misspellings. Finally, we investigate how external resources in the form of knowledge bases may be leveraged to specialise existing representations. In this context, we propose a simple approach that consists in constructing dense representations of these knowledge bases then combining these knowledge vectors with the target word embeddings. We generalise this approach and propose Knowledge Injection Modules, small neural layers that incorporate external representations into the hidden states of a Transformer-based model. Overall, we show that these approaches can lead to improved results, however, we intuit that this final performance ultimately depends on whether the knowledge that is relevant to the target task is available in the input resource. All in all, our work shows evidence that both in-domain corpora and knowledge may be used to construct better word embeddings for specialized domains. In order to facilitate future research on similar topics, we open-source our code and share pre-trained models whenever appropriate.; Il existe, à la base de la plupart des systèmes de TAL, des représentations numériques appelées « plongements lexicaux » qui permettent à la machine de traiter, d'interagir avec et, dans une certaine mesure, de comprendre le langage humain. Ces plongements lexicaux nécessitent une quantité importante de textes afin d'être entraînés correctement, ce qui conduit souvent les praticiens du TAL à collecter et fusionner des textes provenant de sources multiples, mélangeant souvent différents styles et domaines (par exemple, des encyclopédies, des articles de presse, des articles scientifiques, etc.). Ces corpus dits du « domaine général » sont aujourd'hui la base sur laquelle s'entraînent la plupart des plongements lexicaux, limitant fortement leur utilisation dans des domaines plus spécifiques. En effet, les « domaines spécialisés » comme le domaine médical manifestent généralement assez de spécificités lexicales, sémantiques et stylistiques (par exemple, l'utilisation d'acronymes et de termes techniques) pour que les plongements lexicaux généraux ne soient pas en mesure de les représenter efficacement. Dans le cadre de cette thèse, nous explorons comment différents types de ressources peuvent être exploités afin soit d’entraîner de nouveaux plongements spécialisés, soit de spécialiser davantage des représentations préexistantes. Plus précisément, nous étudions d'abord comment des corpus de textes peuvent être utilisés à cette fin. En particulier, nous montrons que la taille du corpus ainsi que son degré de similarité au domaine d’intérêt jouent un rôle important dans ce processus puis proposons un moyen de tirer parti d'un petit corpus du domaine cible afin d’obtenir de meilleurs résultats dans des contextes à faibles ressources. Ensuite, nous abordons le cas des modèles de type BERT et observons que les vocabulaires généraux de ces modèles conviennent mal aux domaines spécialisés. Cependant, nous montrons des résultats indiquant que des modèles formés à l'aide de tels vocabulaires peuvent néanmoins être comparables à des systèmes entièrement spécialisés et utilisant des vocabulaires du domaine du domaine, ce qui nous amène à la conclusion que le ré-entraînement de modèles du domaine général est une approche tout à fait efficace pour construire des systèmes spécialisés. Nous proposons également CharacterBERT, une variante de BERT capable de produire des représentations de mots entiers en vocabulaire ouvert via la consultation des caractères de ces mots. Nous montrons des résultats indiquant que cette architecture conduit à une amélioration des performances dans le domaine médical tout en étant plus robuste aux fautes d'orthographe. Enfin, nous étudions comment des ressources externes sous forme de bases de connaissances et ontologies du domaine peuvent être exploitées pour spécialiser des représentations de mots préexistantes. Dans ce cadre, nous proposons une approche simple qui consiste à construire des représentations denses de bases de connaissances puis à combiner ces ``vecteurs de connaissances’’ avec les plongements lexicaux cibles. Nous généralisons cette approche et proposons également des Modules d'Injection de Connaissances, de petites couches neuronales permettant l'intégration de représentations de connaissances externes au sein des couches cachées de modèles à base de Transformers. Globalement, nous montrons que ces approches peuvent conduire à de meilleurs résultats, cependant, nous avons l'intuition que ces performances finales dépendent en fin de compte de la disponibilité de connaissances pertinentes pour la tâche cible au sein des bases de connaissances considérées. Dans l'ensemble, notre travail montre que les corpus et bases de connaissances du domaine peuvent être utilisés pour construire de meilleurs plongements lexicaux en domaine spécialisé. Enfin, afin de faciliter les recherches futures sur des sujets similaires, nous publions notre code et partageons autant que possible nos modèles pré-entraînés.
- Published
- 2021
6. What kind of knowledge sharing network for a consultant profile?
- Author
-
Monnier-Senicourt, Laetitia
- Abstract
Copyright of Annals of Telecommunications is the property of Springer Nature and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2007
- Full Text
- View/download PDF
7. Fast and reliable inference of semantic clusters
- Author
-
Sébastien Harispe, Sylvie Ranwez, Vincent Ranwez, Nicolas Fiorini, Jacky Montmain, Laboratoire de Génie Informatique et Ingénierie de Production (LGI2P), IMT - MINES ALES (IMT - MINES ALES), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Amélioration génétique et adaptation des plantes méditerranéennes et tropicales (UMR AGAP), Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)-Institut National de la Recherche Agronomique (INRA)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro), Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), AVieSan national program (French Alliance nationale pour les sciences de la Vie et de la Sant), French Agence Nationale de la Recherche : ANR-10-BINF-01 Ancestrome, Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro), Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro), and ANR-10-BINF-0001,ANCESTROME,Approche de phylogénie intégrative pour la reconstruction de génomes ancestraux(2010)
- Subjects
0301 basic medicine ,Information Systems and Management ,semantic indexing ,Computer science ,méthode d'indexation ,WordNet ,Semantic data model ,complexity analysis ,[MATH.MATH-GR]Mathematics [math]/Group Theory [math.GR] ,Management Information Systems ,03 medical and health sciences ,Annotation ,intelligence artificielle ,Semantic similarity ,Artificial Intelligence ,base de connaissances ,Cluster analysis ,automation ,cluster labeling ,Information retrieval ,donnée informatique ,business.industry ,Search engine indexing ,Similarity matrix ,donnée sémantique ,Hierarchical clustering ,030104 developmental biology ,Knowledge base ,Distance matrix ,Cluster labeling ,knowledge base ,automatisation ,business ,Software ,clustering ,neighbor joining ,semantic data - Abstract
AGAP : équipe GE2pop; Document Indexing is but not limited to summarizing document contents with a small set of keywords or concepts of a knowledge base. Such a compact representation of document contents eases their use in numerous processes such as content-based information retrieval, corpus-mining and classification. An important effort has been devoted in recent years to (partly) automate semantic indexing, i.e. associating concepts to documents, leading to the availability of large corpora of semantically indexed documents. In this paper we introduce a method that hierarchically clusters documents based on their semantic indices while providing the proposed clusters with semantic labels. Our approach follows a neighbor joining strategy. Starting from a distance matrix reflecting the semantic similarity of documents, it iteratively se- lects the two closest clusters to merge them in a larger one. The similarity matrix is then updated. This is usually done by combining similarity of the two merged clusters, e.g. using the average similarity. We propose in this paper an alternative approach where the new cluster is first semantically annotated and the similarity matrix is then updated using the semantic similarity of this new annotation with those of the remaining clusters. The hierarchical clustering so obtained is a binary tree with branch lengths that convey semantic distances of clusters. It is then post-processed by using the branch lengths to keep only the most relevant clusters. Such a tool has numerous practical applications as it automates the organi- zation of documents in meaningful clusters (e.g. papers indexed by MeSH terms, bookmarks or pictures indexed by WordNet) which is a tedious everyday task for many people. We assess the quality of the proposed methods using a specific benchmark of annotated clusters of bookmarks that were built man- ually. Each dataset of this benchmark has been clustered independently by several users. Remarkably, the clusters automatically built by our method are congruent with the clusters proposed by experts. All resources of this work, including source code, jar file, benchmark files and results are available at this address: http://sc.nicolasfiorini.info .
- Published
- 2016
- Full Text
- View/download PDF
8. Navigation conceptuelle dans une base de connaissances sur l'usage des plantes en santé animale et végétale
- Author
-
Priscilla Keip, Amirouche Ouzerdine, Marianne Huchard, Pierre Silvie, Pierre Martin, Agroécologie et Intensification Durables des cultures annuelles (UPR AIDA), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad), Models And Reuse Engineering, Languages (MAREL), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), PIA #Digitag, Laure Soulier, and ANR-16-CONV-0004,DIGITAG,Institut Convergences en Agriculture Numérique(2016)
- Subjects
Knowledge base ,Analyse de concepts formels ,Ontology ,Base de connaissances ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,Formal concept analysis ,Ontologie ,Exploration ,[SDE.BE]Environmental Sciences/Biodiversity and Ecology ,Classification ,Navigation ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
National audience; More and more knowledge bases are being developed in the field of environment and life. The challenge of this work is to make knowledge accessible to users with various concerns. Our case study deals with a knowledge base containing 30 000 descriptions of plant use in Africa, that are alternatives to synthetic pesticide and antimicrobial. In this paper, we propose a system architecture to explore and navigate within knowledge using formal concept analysis and present a new algorithm that reveals a new plant use in a context different from the initial use.; De plus en plus de bases de connaissances sont développées dans le domaine de l'envi-ronnement et du vivant. L'enjeu de ce travail est de rendre ces connaissances accessibles à des utilisateurs ayant des préoccupations variées. Notre cas d'étude concerne une base de connais-sances rassemblant environ 30 000 descriptions d'usage de plantes en Afrique, à effet pesticide, antimicrobien et antiparasitaire de synthèse. Dans cet article, nous proposons une architecture de système pour explorer et naviguer dans les connaissances grâce à l'analyse de concepts for-mels et proposons un nouvel algorithme faisant émerger un nouveau contexte d'emploi d'une plante dans un cas d'utilisation.
- Published
- 2019
9. Recherche d'information entre des bases de connaissances
- Author
-
Dupuy, Jean and Dupuy, Jean
- Subjects
Knowledge base ,Recommandation ,Plongement de mots ,Plongement de documents ,recherche d’information ,Word Embedding ,base de connaissances ,Information retrieval ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,[INFO.INFO-IR] Computer Science [cs]/Information Retrieval [cs.IR] ,Document Embedding - Abstract
In this article we will focus on content recommendation, especially in knowledge bases. The Ph.D subject introduced focuses on multiscale text embedding (sentences, paragraphs and whole documents), and recommendation build on top of those representations. Recommendations could be done on a knowledge base or between different ones. After a short presentation of our corpus and a state of the art about current embedding methods we will discuss about the relevance of embedding graph structure, as well as future outlook of our work and its contribution to IR, Dans cet article nous nous intéresserons à la recommandation de contenus, et plus particulièrement au sein de bases de connaissances. Le sujet de thèse présenté ici se focalise sur la représentation de documents textuels en prenant en compte plusieurs échelles (phrase, paragraphe et document entier) et l'exploitation de celle-ci par un système de recommandation, soit au sein de la même base de connaissances, soit entre des bases différentes. Après un détail du corpus considéré pour ces travaux et un état de l'art sur les méthodes d'embedding actuelles, nous discuterons de l'utilité de l'exploitation de la structure du graphe du corpus pour la représentation, puis des perspectives du sujet et de sa contribution à la recherche d'information.
- Published
- 2019
- Full Text
- View/download PDF
10. Endogenous production of deductive rules in a lexical-semantic network
- Author
-
Lafourcade, Mathieu, Joubert, Alain, Exploration et exploitation de données textuelles (TEXTE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), and Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)
- Subjects
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,inference ,lexical-semantic network ,base de connaissances ,knowledge base ,réseau lexico-sémantique ,rule discovery ,inférence ,découverte de règles ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
International audience; Endogenous production of deductive rules in a lexical-semantic network With a lexical-semantic network, it is possible to discover rule inductively from known facts. These rules are instrumental in reducing missing information in the network. In order to minimize emergence of relations that could be erroneous, we approached the question of polysemy and a filtering on rules presenting exceptions is realized.; A partir d'un réseau lexico-sémantique, il est possible de générer des règles de façon inductive à partir des faits présents. Ces règles permettent de densifier le réseau et d'en réduire les silences. Afin de minimiser l'émergence de relations qui pourraient être erronées, la question de la polysémie est abordée et un filtrage sur les règles présentant des exceptions est réalisé.
- Published
- 2018
11. Si beaucoup d'oiseaux volent, peut-on en déduire que tous les oiseaux volent ? Production endogène de règles déductives dans un réseau lexico-sémantique
- Author
-
Lafourcade, Mathieu, Joubert, Alain, Exploration et exploitation de données textuelles (TEXTE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), and Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)
- Subjects
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,inference ,lexical-semantic network ,base de connaissances ,knowledge base ,réseau lexico-sémantique ,rule discovery ,inférence ,découverte de règles ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
International audience; Endogenous production of deductive rules in a lexical-semantic network With a lexical-semantic network, it is possible to discover rule inductively from known facts. These rules are instrumental in reducing missing information in the network. In order to minimize emergence of relations that could be erroneous, we approached the question of polysemy and a filtering on rules presenting exceptions is realized.; A partir d'un réseau lexico-sémantique, il est possible de générer des règles de façon inductive à partir des faits présents. Ces règles permettent de densifier le réseau et d'en réduire les silences. Afin de minimiser l'émergence de relations qui pourraient être erronées, la question de la polysémie est abordée et un filtrage sur les règles présentant des exceptions est réalisé.
- Published
- 2018
12. WikiGames : une plateforme de jeux dédiée à la validation d’une base de connaissances produite à partir de techniques d’extraction d’information ouverte
- Author
-
Forand, Kevin and Langlais, Philippe
- Subjects
Knowledge base ,Jeux ,Games with a purpose ,Base de connaissances ,Natural language processing ,Machine learning ,Apprentissage automatique ,Traitement automatique des langues naturelles - Abstract
L’extraction d’information ouverte permet la création de larges collections de triplets relationnels à partir de corpus de textes non structurés. Ces larges collections de triplets extraits contiennent souvent une grande quantité de triplets bruités n’apportant aucune information utile. Ces collections peuvent atteindre des tailles rendant la validation manuelle trop longue pour être réalisées par un petit groupe de personnes en un temps convenable et il serait dans bien des cas trop dispendieux pour ces équipes d’engager le personnel nécessaire pour cette tâche. L’utilisation de jeux à des fins de production participative a permis, lors de tâches similaires, de recueillir un grand ensemble de bénévoles. Nous nous sommes donc intéressés à inférer, à partir d’une de ces collections de triplets bruités qui fut précédemment générée à partir de techniques d’extraction d’information ouverte, un ensemble de connaissances potentiellement utiles et pertinentes et avons ensuite amorcé la validation de cette base de connaissances par l’intermédiaire d’une plateforme de jeux., Open information extraction techniques can generate a large amount of relation triplets from unstructured corpus of texts. These large collections of triplets often contain a good portion of noisy triplets that brings little to no usable information. These collections of triplets can become too large to be manually validated by most small teams in a reasonable amount of time and hiring the number of validators required for such task would be too costly for most teams. The use of games as a crowdsourcing tool has shown great success in acquiring a large pool of volunteer for the realization of similar tasks. We have therefore looked into the extraction of a set of useful knowledge from a rather large and noisy relation triplets collection that was previously extracted using an open information extraction tool. We have then started the process of validating the resulting knowledge base with the help of a games with a purpose platform.
- Published
- 2018
13. Représentation et simulation de projets de construction entachés d’incertitudes en utilisant des modèles relationnels probabilistes
- Author
-
Tran, Thi Thuy Phuong, Institut de Mécanique et d'Ingénierie de Bordeaux (I2M), Institut National de la Recherche Agronomique (INRA)-Université de Bordeaux (UB)-École Nationale Supérieure d'Arts et Métiers (ENSAM), Arts et Métiers Sciences et Technologies, HESAM Université (HESAM)-HESAM Université (HESAM)-Arts et Métiers Sciences et Technologies, HESAM Université (HESAM)-HESAM Université (HESAM)-Institut Polytechnique de Bordeaux-Centre National de la Recherche Scientifique (CNRS), Université de Bordeaux, Denys Breysse, Franck Taillandier, Cédric Baudrit, STAR, ABES, École Nationale Supérieure d'Arts et Métiers (ENSAM), and HESAM Université (HESAM)-HESAM Université (HESAM)-Institut Polytechnique de Bordeaux-Centre National de la Recherche Scientifique (CNRS)-Université de Bordeaux (UB)-Institut National de la Recherche Agronomique (INRA)
- Subjects
Complex system ,Système complexe ,Modèle relationnel probabiliste ,[PHYS.MECA]Physics [physics]/Mechanics [physics] ,Modélisation d'incertitude ,Uncertainty modelling ,Knowledge base ,[SPI.GCIV]Engineering Sciences [physics]/Civil Engineering ,Projet de construction ,Base de connaissances ,Probabilistic relational model (PRM) ,[SPI.GCIV.RISQ]Engineering Sciences [physics]/Civil Engineering/Risques ,[SPI.GCIV] Engineering Sciences [physics]/Civil Engineering ,[PHYS.MECA] Physics [physics]/Mechanics [physics] ,[SPI.GCIV.RISQ] Engineering Sciences [physics]/Civil Engineering/Risques ,Construction project - Abstract
The difficulty to manage risks in construction projects comes from their complexity. They are composed of many entities (activities, actors, contracts, resources, etc.) among which interactions exist at many levels and influence the system response. In turn, this response can influence the behaviour of some entities. In order to capture the complexity of the system, it is necessary to structure, model and share cross-disciplinary and interdisciplinary knowledge flows in a common and unifying framework. Because of this high complexity, the system response may appear as unpredictable. Uncertainties at all scales are source of risk for the construction project itself. Tackling this complexity could improve our grasp of the whole system, in order to provide more robust and efficient decision alternatives in risk management. It is then essential to propose conceptual approaches able to represent the behaviour and the interactions of system entities over the time.Different approaches and tools have been proposed to model and simulate risk of construction project as Risk Breakdown Structure, Bayesian networks, Network Theory, Monte Carlo Simulation, Analytical Network Process, etc. These tools and methods can be used to simulate the behaviour of the system, but they are inadequate for representing large and complex dynamical system because they are based on case-dependant model (i.e. a specific model has to be built for each studied construction project), the fragmented representation of knowledge, the lack of common vocabulary, the lack of generic character. Hence, an ontology paradigm is developed in order (a) to provide a common vocabulary able to represent the knowledge about construction projects and its risks, (b) to shape the structure (interrelations) between those identified database and (c) to represent construction project integrating as well technical, human, sustainability dimensions at different detailed levels of uncertainty.In this context, by coupling the advantages of ontology and Bayesian network, the framework of probabilistic relational model (PRM) will provide a practical mathematical formalism allowing to represent and simulate complex stochastic dynamical systems. PRMs extend the formalism of Bayesian networks by adding the notion of object paradigm where uncertainty attached to the system is then taken into account by quantifying probabilistic dependence between the properties of objects and other properties of related objects. To the best of our knowledge, this thesis report will be the first application in which PRM have been proposed to model and simulate construction project while accounting uncertainties.Therefore PRM is used to simulate the propagation of uncertainties existing in this complexdynamic and multi-scale system, which lead to construction project risk. A prototypal software framework has been developed to check the consistency and the viability of the concept. It will be shown how it can be used in order to predict the uncertain response of the system as well as to study how the overall response of the system is sensitive to local values or assumptions. Lastly, PRM will be applied for two case-studies (a road and bridge construction in Hue-Vietnam and another building project in France). Results show that the formalism of PRMs allows to (1) implement any kind of construction project, (2) to take uncertainty into account, (3) to simulate and predict the behaviour of system and (4) to derive information from partial knowledge., La gestion des risques est un enjeu majeur, mais difficile pour les projets de construction. La difficulté à gérer les risques dans les projets de construction vient de leur complexité. Ils sont composés de nombreuses entités (activités, acteurs, contrats, ressources, etc.) dont le comportement collectif influencent les comportements individuels. Afin de mieux appréhender et comprendre la complexité du système dans son ensemble, il est nécessaire de capitaliser et structurer la connaissance dans le but de proposer un modèle capable de décrire et simuler le comportement du système étudié. Cependant, la formalisation de tels modèles se confronte à de nombreuses difficultés : présence de facteurs humains, raretés de modèles, connaissances souvent expertes et qualitatives difficiles à formaliser, méconnaissance des mécanismes régissant certains processus, données parcellaires, hétérogènes et souvent imparfaites, échelles multiples, etc. L’objectif est de proposer des approches conceptuelles permettant d’assembler des morceaux de connaissances hétérogènes multi-sources et multi-échelles dans le but de proposer un modèle capable de réduire les incertitudes liées au fonctionnement, au devenir, à la conception et au pilotage des projets de construction.Différentes approches et outils ont été proposés pour modéliser et simuler les projets de construction : structure de répartition des risques, réseaux bayésiens, théorie des réseaux, simulation de Monte Carlo, réseau analytique, etc. Ces outils et méthodes sont utilisés pour simuler le comportement de systèmes, mais inadéquats pour représenter des systèmes complexes dynamiques à grandes échelles. Ils sont pour la plupart parcellaires et ne présentent pas ou peu de généricités. Dans ce contexte, les modèles relationnels probabilistes (MRPs) fourniront un formalisme mathématique pratique permettant de représenter et de simuler des systèmes dynamiques complexes entachés d’incertitudes. Les MRPs étendent le formalisme des réseaux bayésiens en ajoutant la notion de paradigme objet où l'incertitude attachée au système est alors prise en compte en quantifiant la dépendance probabiliste entre les propriétés des objets.Pour ce faire, une ontologie du domaine a été développée pour (a) fournir un vocabulaire commun capable de représenter les connaissances sur les projets de construction, (b) identifier les interconnections entre les différentes entités techniques, humaines, économiques à différents niveaux de description. Guidé par cette ontologie unMRP a été élaboré et utilisé pour simuler le comportement des projets de construction tout en prenant en compte les incertitudes. On montrera comment il peut être utilisé pour prédire la réponse incertaine du système ainsi que pour étudier comment la réponse globale du système est sensible aux valeurs ou hypothèses locales. Enfin, le MRP sera utilisé pour deux études de cas (la construction de routes et de ponts à Hue-Vietnam et d’un bâtiment en France). Les résultats montrent que le formalisme des MRPs permet (1) d’instancier tout type de projets de construction, (2) de prendre en compte l'incertitude, (3) de simuler et prédire le comportement du système et (4) d’extraire de la connaissance à partir d’informations partielles.
- Published
- 2018
14. Are ranking semantics sensitive to the notion of core?
- Author
-
Bruno YUN, Madalina Croitoru, Pierre Bisquert, Graphs for Inferences on Knowledge (GRAPHIK), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Ingénierie des Agro-polymères et Technologies Émergentes (UMR IATE), Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université Montpellier 2 - Sciences et Techniques (UM2)-Université de Montpellier (UM)-Institut National de la Recherche Agronomique (INRA), Graphs for Inferences on Knowledge ( GRAPHIK ), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier ( LIRMM ), Université de Montpellier ( UM ) -Centre National de la Recherche Scientifique ( CNRS ) -Université de Montpellier ( UM ) -Centre National de la Recherche Scientifique ( CNRS ) -Inria Sophia Antipolis - Méditerranée ( CRISAM ), Institut National de Recherche en Informatique et en Automatique ( Inria ) -Institut National de Recherche en Informatique et en Automatique ( Inria ), Ingénierie des Agro-polymères et Technologies Émergentes ( IATE ), Centre de Coopération Internationale en Recherche Agronomique pour le Développement ( CIRAD ) -Université de Montpellier ( UM ) -Université Montpellier 2 - Sciences et Techniques ( UM2 ) -Institut national d’études supérieures agronomiques de Montpellier ( Montpellier SupAgro ) -Institut National de la Recherche Agronomique ( INRA ) -Centre international d'études supérieures en sciences agronomiques ( Montpellier SupAgro ), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Inria Sophia Antipolis - Méditerranée (CRISAM), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Université Montpellier 2 - Sciences et Techniques (UM2)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université de Montpellier (UM)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), and Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)
- Subjects
[ INFO ] Computer Science [cs] ,semantic web ,modèle ontologique ,base de connaissances ,knowledge base ,[INFO]Computer Science [cs] ,[ INFO.INFO-AI ] Computer Science [cs]/Artificial Intelligence [cs.AI] ,web sémantique ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
International audience; In this paper, we study the impact of two notions of core on the output of ranking semantics in logical argumentation frameworks. We consider the existential rules fragment, a language widely used in Semantic Web and Ontology Based Data Access applications. Using burden semantics as example we show how some ranking semantics yield different outputs on the argumentation graph and its cores. We extend existing results in the literature regarding core equivalences on logical argumentation frameworks and propose the first formal characterisation of core-induced modification for a class of ranking semantics satisfying given postulates.
- Published
- 2017
15. A personal knowledge base integrating user data and activity timeline
- Author
-
Montoya, David, Laboratoire Spécification et Vérification [Cachan] (LSV), École normale supérieure - Cachan (ENS Cachan)-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, and Serge Abiteboul
- Subjects
Knowledge base ,Capteurs téléphone intelligent ,Intégration de données ,Transportation mode recognition ,Reconnaissance d'activité ,Personal information management ,Reconnaissance de mode de transport ,Base de connaissances ,Activity recognition ,[INFO.INFO-DS]Computer Science [cs]/Data Structures and Algorithms [cs.DS] ,Mobile device sensor data ,Data integration ,Gestion de données personnelles - Abstract
Typical Internet users today have their data scattered over several devices, applications, and services. Managing and controlling one's data is increasingly difficult. In this thesis, we adopt the viewpoint that the user should be given the means to gather and integrate her data, under her full control. In that direction, we designed a system that integrates and enriches the data of a user from multiple heterogeneous sources of personal information into an RDF knowledge base. The system is open-source and implements a novel, extensible framework that facilitates the integration of new data sources and the development of new modules for deriving knowledge. We first show how user activity can be inferred from smartphone sensor data. We introduce a time-based clustering algorithm to extract stay points from location history data. Using data from additional mobile phone sensors, geographic information from OpenStreetMap, and public transportation schedules, we introduce a transportation mode recognition algorithm to derive the different modes and routes taken by the user when traveling. The algorithm derives the itinerary followed by the user by finding the most likely sequence in a linear-chain conditional random field whose feature functions are based on the output of a neural network. We also show how the system can integrate information from the user's email messages, calendars, address books, social network services, and location history into a coherent whole. To do so, it uses entity resolution to find the set of avatars used by each real-world contact and performs spatiotemporal alignment to connect each stay point with the event it corresponds to in the user's calendar. Finally, we show that such a system can also be used for multi-device and multi-system synchronization and allow knowledge to be pushed to the sources. We present extensive experiments.; Aujourd'hui, la plupart des internautes ont leurs données dispersées dans plusieurs appareils, applications et services. La gestion et le contrôle de ses données sont de plus en plus difficiles. Dans cette thèse, nous adoptons le point de vue selon lequel l'utilisateur devrait se voir donner les moyens de récupérer et d'intégrer ses données, sous son contrôle total. À ce titre, nous avons conçu un système logiciel qui intègre et enrichit les données d'un utilisateur à partir de plusieurs sources hétérogènes de données personnelles dans une base de connaissances RDF. Le logiciel est libre, et son architecture innovante facilite l'intégration de nouvelles sources de données et le développement de nouveaux modules pour inférer de nouvelles connaissances. Nous montrons tout d'abord comment l'activité de l'utilisateur peut être déduite des données des capteurs de son téléphone intelligent. Nous présentons un algorithme pour retrouver les points de séjour d'un utilisateur à partir de son historique de localisation. À l'aide de ces données et de données provenant d'autres capteurs de son téléphone, d'informations géographiques provenant d'OpenStreetMap, et des horaires de transports en commun, nous présentons un algorithme de reconnaissance du mode de transport capable de retrouver les différents modes et lignes empruntés par un utilisateur lors de ses déplacements. L'algorithme reconnaît l'itinéraire pris par l'utilisateur en retrouvant la séquence la plus probable dans un champ aléatoire conditionnel dont les probabilités se basent sur la sortie d'un réseau de neurones artificiels. Nous montrons également comment le système peut intégrer les données du courrier électronique, des calendriers, des carnets d'adresses, des réseaux sociaux et de l'historique de localisation de l'utilisateur dans un ensemble cohérent. Pour ce faire, le système utilise un algorithme de résolution d'entité pour retrouver l'ensemble des différents comptes utilisés par chaque contact de l'utilisateur, et effectue un alignement spatio-temporel pour relier chaque point de séjour à l'événement auquel il correspond dans le calendrier de l'utilisateur. Enfin, nous montrons qu'un tel système peut également être employé pour faire de la synchronisation multi-système/multi-appareil et pour pousser de nouvelles connaissances vers les sources. Les résultats d'expériences approfondies sont présentés.
- Published
- 2017
16. Modeling and mining business process variants in cloud environments
- Author
-
Yongsiriwit, Karn, STAR, ABES, Services répartis, Architectures, MOdélisation, Validation, Administration des Réseaux (SAMOVAR), Institut Mines-Télécom [Paris] (IMT)-Télécom SudParis (TSP), Département Informatique (INF), Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, and Walid Gaaloul
- Subjects
[INFO.INFO-NI] Computer Science [cs]/Networking and Internet Architecture [cs.NI] ,Ontology ,Business process models ,Allocation des ressources Cloud ,Ontologie ,Modèle de processus ,Fragment du processus métier ,[INFO.INFO-MO]Computer Science [cs]/Modeling and Simulation ,Knowledge base ,[INFO.INFO-NI]Computer Science [cs]/Networking and Internet Architecture [cs.NI] ,Cloud resource allocation ,Base de connaissances ,Fouille du processus ,Process mining ,Business process fragments ,[INFO.INFO-MO] Computer Science [cs]/Modeling and Simulation - Abstract
More and more organizations are adopting cloud-based Process-Aware Information Systems (PAIS) to manage and execute processes in the cloud as an environment to optimally share and deploy their applications. This is especially true for large organizations having branches operating in different regions with a considerable amount of similar processes. Such organizations need to support many variants of the same process due to their branches' local culture, regulations, etc. However, developing new process variant from scratch is error-prone and time consuming. Motivated by the "Design by Reuse" paradigm, branches may collaborate to develop new process variants by learning from their similar processes. These processes are often heterogeneous which prevents an easy and dynamic interoperability between different branches. A process variant is an adjustment of a process model in order to flexibly adapt to specific needs. Many researches in both academics and industry are aiming to facilitate the design of process variants. Several approaches have been developed to assist process designers by searching for similar business process models or using reference models. However, these approaches are cumbersome, time-consuming and error-prone. Likewise, such approaches recommend entire process models which are not handy for process designers who need to adjust a specific part of a process model. In fact, process designers can better develop process variants having an approach that recommends a well-selected set of activities from a process model, referred to as process fragment. Large organizations with multiple branches execute BP variants in the cloud as environment to optimally deploy and share common resources. However, these cloud resources may be described using different cloud resources description standards which prevent the interoperability between different branches. In this thesis, we address the above shortcomings by proposing an ontology-based approach to semantically populate a common knowledge base of processes and cloud resources and thus enable interoperability between organization's branches. We construct our knowledge base built by extending existing ontologies. We thereafter propose an approach to mine such knowledge base to assist the development of BP variants. Furthermore, we adopt a genetic algorithm to optimally allocate cloud resources to BPs. To validate our approach, we develop two proof of concepts and perform experiments on real datasets. Experimental results show that our approach is feasible and accurate in real use-cases, De plus en plus les organisations adoptent les systèmes d'informations sensibles aux processus basés sur Cloud en tant qu'un environnement pour gérer et exécuter des processus dans le Cloud dans l'objectif de partager et de déployer leurs applications de manière optimale. Cela est particulièrement vrai pour les grandes organisations ayant des succursales opérant dans des différentes régions avec des processus considérablement similaires. Telles organisations doivent soutenir de nombreuses variantes du même processus en raison de la culture locale de leurs succursales, de leurs règlements, etc. Cependant, le développement d'une nouvelle variante de processus à partir de zéro est sujet à l'erreur et peut prendre beaucoup du temps. Motivés par le paradigme "la conception par la réutilisation", les succursales peuvent collaborer pour développer de nouvelles variantes de processus en apprenant de leurs processus similaires. Ces processus sont souvent hétérogènes, ce qui empêche une interopérabilité facile et dynamique entre les différentes succursales. Une variante de processus est un ajustement d'un modèle de processus afin de s'adapter d'une façon flexible aux besoins spécifiques. De nombreuses recherches dans les universités et les industries visent à faciliter la conception des variantes de processus. Plusieurs approches ont été développées pour aider les concepteurs de processus en recherchant des modèles de processus métier similaires ou en utilisant des modèles de référence. Cependant, ces approches sont lourdes, longues et sujettes à des erreurs. De même, telles approches recommandent des modèles de processus pas pratiques pour les concepteurs de processus qui ont besoin d'ajuster une partie spécifique d'un modèle de processus. En fait, les concepteurs de processus peuvent mieux développer des variantes de processus ayant une approche qui recommande un ensemble bien défini d'activités à partir d'un modèle de processus défini comme un fragment de processus. Les grandes organisations multi-sites exécutent les variantes de processus BP dans l'environnement Cloud pour optimiser le déploiement et partager les ressources communes. Cependant, ces ressources Cloud peuvent être décrites en utilisant des différents standards de description des ressources Cloud ce qui empêche l'interopérabilité entre les différentes succursales. Dans cette thèse, nous abordons les limites citées ci-dessus en proposant une approche basée sur les ontologies pour peupler sémantiquement une base de connaissance commune de processus et de ressources Cloud, ce qui permet une interopérabilité entre les succursales de l'organisation. Nous construisons notre base de connaissance en étendant les ontologies existantes. Ensuite, nous proposons une approche pour exploiter cette base de connaissances afin de supporter le développement des variantes BP. De plus, nous adoptons un algorithme génétique pour allouer d'une manière optimale les ressources Cloud aux BPs. Pour valider notre approche, nous développons deux preuves de concepts et effectuons des expériences sur des ensembles de données réels. Les résultats expérimentaux montrent que notre approche est réalisable et précise dans des cas d'utilisation réels
- Published
- 2017
17. La régionalisation des inventaires de cycle de vie pour évaluer les technologies, les flux matériaux et les impacts dans la chaine d’approvisionnement des énergies renouvelables
- Author
-
François, Cyril, STAR, ABES, Institut des Sciences de la Terre (ISTerre), Université Joseph Fourier - Grenoble 1 (UJF)-Institut Français des Sciences et Technologies des Transports, de l'Aménagement et des Réseaux (IFSTTAR)-Institut national des sciences de l'Univers (INSU - CNRS)-Institut de recherche pour le développement [IRD] : UR219-PRES Université de Grenoble-Université Savoie Mont Blanc (USMB [Université de Savoie] [Université de Chambéry])-Centre National de la Recherche Scientifique (CNRS), Université Grenoble Alpes, Olivier Vidal, Régis Olivès, and Centre National de la Recherche Scientifique (CNRS)-PRES Université de Grenoble-Université Joseph Fourier - Grenoble 1 (UJF)-Institut Français des Sciences et Technologies des Transports, de l'Aménagement et des Réseaux (IFSTTAR)-Institut national des sciences de l'Univers (INSU - CNRS)-Institut de recherche pour le développement [IRD] : UR219-Université Savoie Mont Blanc (USMB [Université de Savoie] [Université de Chambéry])
- Subjects
Régionalisation d'inventaire de cycle de vie ,Mineral resources ,Renewable energies ,[SDU.STU]Sciences of the Universe [physics]/Earth Sciences ,Computer ontology ,Regionalization of life cycle inventory ,Knowledge base ,Life cycle assessment ,Ressources énergétiques et minérales ,Ontologie informatique ,Base de connaissances ,Énergies renouvelables ,[SDU.STU] Sciences of the Universe [physics]/Earth Sciences ,Analyse de cycle de vie - Abstract
The energy transition is a decisive issue of the XXIth century, particularly in relation to the reduction of the harmful consequences of the climatic changes. However, this transition is subjected to several hazards : economic, geologic, social, environmental and geopolitical ones. In order to evaluate the vulnerability and the conditions of feasibility of the energy transition scenarios it is necessary to be able to evaluate the supply chain of the technologies related to the energy system, in the technological and but also geographical dimensions.The current studies such as the life cycle assessments (LCA) allow to take into account the supply chain in the technological dimension, but these studies do not provide or only few information about the geographical dimension. At the opposite, the Input-Output Analysis (IOA), particularly the multiregional ones (MRIO) provide an information about the regional exchanges by categories of products, but are very aggregated. The nomenclatures of the economical activities and the categories of products taken into account are restricted. The works realized within this thesis aim to exploit the best of each tool, i.e. the technological information from the LCA and the geographical information from the MRIO. A new methodology is proposed to regionalize the LCA inventory with the MRIO data. This methodology allows to use the geographical information of the LCA data when it exists or otherwise use the geographical information from MRIO to estimate it. A particular attention is paid to get a realistic model, i.e. to match the activities and the products with real geographical data.The tools produced in this thesis are the first step to evaluate the energy transition scenarios. Particularly, they allow to realize regionalized LCA inventories to evaluate the needs and impacts of the technologies involved in the energy transition. However, additional works are necessary to take into account the temporal dimension of the energy transition scenarios.The new method needs to manipulate a lot of different data from different sources. In order to manage these data a new collaborative web platform has been set up. It allows to manipulate the data through a web interface as well as uses them in calculation frameworks. In order to facilitate the evolution of the tools and the manipulation of the data, a work about how to structure and manipulate the information was realized. A new semantic architecture — called computer ontology — has been developed to facilitate the management of the knowledges but also the maintenance and the integration of new knowledges. The collaborative framework can fit the specifications for a one person usage or a community., La transition énergétique est un enjeu crucial du XXIème siècle, en particulier pour réduire les conséquences néfastes du changement climatique. Cependant, cette transition est sujette à de nombreux risques : économiques, géologiques, sociaux, environnementaux et géopolitiques. Afin de pouvoir évaluer la vulnérabilité et les conditions de faisabilité des scénarios de transition énergétique, il est nécessaire de pouvoir évaluer la chaine de valeur technologique et géographique des technologies impliquées dans le système énergétique.Les outils actuels tels que les analyses de cycle de vie (ACV) permettent de prendre en compte la chaine de valeur technologique, mais les données relatives aux ACV ne fournissent pas ou peu d’information sur la chaine de valeur géographique. Les modèle d’entrées-sorties économiques (IOA), en particulier ceux mutlirégionaux (MRIO), s’ils fournissent des données sur les échanges économiques bilatéraux, donc une estimation des échanges régionalisés, sont des modèles très agrégés. Les nomenclatures des activités économiques et des catégories de produits prisent en compte sont restreintes. Le travail réalisé au sein de cette thèse vise à exploiter les informations des outils ACV et MRIO, profitant des avantages de chacun, c’est à dire l’information technologique des premiers et l’information régionalisée des seconds. Une nouvelle méthodologie est proposée pour régionaliser les inventaires de cycle de vie d’ACV à partir des données MRIO. Cette méthodologie permet, à partir d’une base de données ACV de processus industriels, d’exploiter l’information géographique des processus lorsqu’elle existe et d’exploiter les informations d’échanges économiques bilatéraux des MRIO pour estimer cette information lorsqu’elle n’existe pas. Un soin particulier est pris afin de faire correspondre les activités et les produits selon leurs géographies.Les outils qui découlent de ces travaux sont la première étape à l’évaluation des scénarios de la transition énergétique. En particulier, ils permettent de réaliser des inventaires de cycle de vie régionalisés pour évaluer les besoins et les impacts des technologies impliquées dans la transition énergétique. Cependant, des travaux supplémentaires sont nécessaires pour prendre en compte la dimension temporelle des scénarios de transition énergétique.Cette nouvelle méthode nécessite l’usage de nombreuses données de sources différentes. Afin de gérer ces données, une plateforme internet collaborative a été mise en place, qui permet de dissocier la gestion des données de leur usage. Une réflexion sur la gestion de la donnée a amené à penser de manière différente la structure des données relatives à l’écologie industrielle. Une nouvelle architecture sémantique, aussi appelée ontologie, a été développée pour faciliter la gestion des données, mais aussi leur maintient et leur évolution dans le temps, que ce soit pour un utilisateur unique, ou dans le cadre d’une gestion collaborative.
- Published
- 2017
18. A Datalog+/-Domain-Specific Durum Wheat Knowledge Base
- Author
-
Arioua, Abdallah, Buche, Patrice, Croitoru, Madalina, Graphs for Inferences on Knowledge (GRAPHIK), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Ingénierie des Agro-polymères et Technologies Émergentes (UMR IATE), Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université Montpellier 2 - Sciences et Techniques (UM2)-Université de Montpellier (UM)-Institut National de la Recherche Agronomique (INRA), ANR-13-ALID-0002,Dur-Dur,Innovations agronomiques, techniques et organisationnelles au service de la DURabilité de la filière blé DUR(2013), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Inria Sophia Antipolis - Méditerranée (CRISAM), Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université Montpellier 2 - Sciences et Techniques (UM2)-Université de Montpellier (UM)-Institut National de la Recherche Agronomique (INRA), Project Dur-Dur (ANR-13-ALID-0002), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Université Montpellier 2 - Sciences et Techniques (UM2)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université de Montpellier (UM)-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), and Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)
- Subjects
Conceptual graph ,Knowledge base ,Représentation des connaissances ,Knowledge representation ,Hard wheat ,Base de connaissances ,Formalism ,Formalisme ,Blé dur ,Graphe conceptuel ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
International audience; We consider the application setting where a domain-specific knowledge base about Durum Wheat has been constructed by knowledge engineers who are not experts in the domain. This knowledge base is prone to inconsistencies and incompleteness. The goal of this work is to show how the state of the art knowledge representation formalism called Datalog± can be used to cope with such problems by (1) providing inconsistency-tolerant techniques to cope with inconsistency, and (2) providing an expressive logical language that allows representing incomplete knowledge.
- Published
- 2016
- Full Text
- View/download PDF
19. L’anglais de spécialité en chimie organique : entre indétermination terminologique et multidimensionnalité
- Author
-
Sandrine Peraldi
- Subjects
Linguistics and Language ,Philosophy ,analyse définitoire ,defining analysis ,indeterminacy ,Language and Linguistics ,indétermination ,organic chemistry ,textual terminology ,multidimensionnalité ,base de connaissances ,chimie organique ,terminologie textuelle ,variation terminologique ,knowledge base ,multidimensionality ,terminological variation ,Humanities - Abstract
Cet article porte sur une langue de spécialité relativement peu étudiée en anglais : celle de la chimie organique. Le discours de spécialité chimique est analysé à travers la mise en évidence de deux phénomènes linguistiques également méconnus : l’indétermination terminologique et la multidimensionnalité dans les sciences exactes. En effet, malgré la présence d’une nomenclature en chimie, une exploration textuelle outillée d’un double corpus, associée à une analyse componentielle revisitée des énoncés définitoires de certains termes clés a permis d’établir clairement que ces derniers étaient non seulement imprécis, mais qu’ils ne se prêtaient pas à une approche conceptuelle et logique des unités linguistiques. L’auteur montre également que cette indétermination est partiellement compensée par une très forte créativité lexicale, une structuration conceptuelle extrêmement dense et une construction sémantique des termes par incrémentation. Néanmoins, ce fonctionnement par stratification est également à l’origine de la multidimensionnalité latente du domaine et donc des nombreuses difficultés de classification et de représentation notionnelles de la discipline. This paper focuses on a relatively unexplored field of research within English for Specific Purposes: that of organic chemistry. The specialized discourse of chemistry is analyzed through the identification of two specific linguistic phenomena that are also often overlooked: terminological indeterminacy and multidimensionality within exact sciences. Indeed, despite the existence of a chemical nomenclature, the exploration (through a concordancer) of a double corpus combined with a fresh perspective on the componential analysis of certain definitions and a semantic breakdown around key terms shows that certain terminological units are imprecise and do not allow for a conceptual and ontological approach. The author also shows that this terminological and notional indeterminacy is partly offset by a very strong lexical creativity, an extremely dense conceptual organization and layered semantic constructions. However, these phenomena also lead to strong multidimensionality within the field and many difficulties regarding conceptual organization and representation.
- Published
- 2012
- Full Text
- View/download PDF
20. Information indexing and recommendation : toward a precise description if items by an ontological approach based on business domain modeling : application to recommander system of economic news
- Author
-
Werner, David, Laboratoire Electronique, Informatique et Image ( Le2i ), Université de Bourgogne ( UB ) -AgroSup Dijon - Institut National Supérieur des Sciences Agronomiques, de l'Alimentation et de l'Environnement-Centre National de la Recherche Scientifique ( CNRS ), Université de Bourgogne, Christophe Cruz, Aurélie Bertaux, Laboratoire Electronique, Informatique et Image [UMR6306] (Le2i), Université de Bourgogne (UB)-Centre National de la Recherche Scientifique (CNRS)-École Nationale Supérieure d'Arts et Métiers (ENSAM), Arts et Métiers Sciences et Technologies, HESAM Université (HESAM)-HESAM Université (HESAM)-Arts et Métiers Sciences et Technologies, HESAM Université (HESAM)-HESAM Université (HESAM)-AgroSup Dijon - Institut National Supérieur des Sciences Agronomiques, de l'Alimentation et de l'Environnement, and STAR, ABES
- Subjects
[INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB] ,Ontology ,Sémantique ,Ontologie ,Economy ,News ,Économie ,Reasoner ,Actualités ,Knowledge base ,[ INFO.INFO-DB ] Computer Science [cs]/Databases [cs.DB] ,Base de connaissances ,Systèmes de recommandation ,Raisonneur ,Recommender systems ,[INFO.INFO-DB] Computer Science [cs]/Databases [cs.DB] ,Semantic - Abstract
Effective management of large amounts of information has become a challenge increasinglyimportant for information systems. Everyday, new information sources emerge on the web. Someonecan easily find what he wants if (s)he seeks an article, a video or a specific artist. However,it becomes quite difficult, even impossible, to have an exploratory approach to discover newcontent. Recommender systems are software tools that aim to assist humans to deal withinformation overload. The work presented in this Phd thesis proposes an architecture for efficientrecommendation of news. In this document, we propose an architecture for efficient recommendationof news articles. Our ontological approach relies on a model for precise characterization of itemsbased on a controlled vocabulary. The ontology contains a formal vocabulary modeling a view on thedomain knowledge. Carried out in collaboration with the company Actualis SARL, this work has ledto the marketing of a new highly competitive product, FristECO Pro’fil., La gestion efficace de grandes quantités d’informations est devenue un défi de plus en plus importantpour les systèmes d’information. Tous les jours, de nouvelles sources d’informations émergent surle web. Un humain peut assez facilement retrouver ce qu’il cherche, lorsqu’il s’agit d’un article,d’une vidéo, d’un artiste précis. En revanche, il devient assez difficile, voire impossible, d’avoir unedémarche exploratoire pour découvrir de nouveaux contenus. Les systèmes de recommandationsont des outils logiciels ayant pour objectif d’assister l’humain afin de répondre au problème desurcharge d’informations. Les travaux présentés dans ce document proposent une architecturepour la recommandation efficace d’articles d’actualité. L’approche ontologique utilisée repose surun modèle permettant une qualification précise des items sur la base d’un vocabulaire contrôlé.Contenu dans une ontologie, ce vocabulaire constitue une modélisation formelle de la vue métier surle domaine traité. Réalisés en collaboration avec la société Actualis SARL, ces travaux ont permis lacommercialisation d’un nouveau produit hautement compétitif, FristECO Pro’fil.
- Published
- 2015
21. Représentation à base de connaissance pour une méthode de classification transductive de document multilangue
- Author
-
Romeo, S., Ienco, D., Tagarelli, A., Universita Mediterranea of Reggio Calabria [Reggio Calabria], Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA), Dipartimento di Ingegneria Informatica, Modellistica, Elettronica e Sistemistica [Calabria] (DIMES), Università della Calabria [Arcavacata di Rende] (Unical), ADVanced Analytics for data SciencE (ADVANSE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), and Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)
- Subjects
[INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB] ,BASE DE CONNAISSANCES ,Multilingual classification ,Knowledge-base ,MODELISATION ,CLASSIFICATION ,KNOWLEDGE BASE ,ComputingMethodologies_PATTERNRECOGNITION ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,LINGUISTICS ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,[SDE]Environmental Sciences ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,Transductive learning ,TRADUCTION ,ACM: H.: Information Systems/H.3: INFORMATION STORAGE AND RETRIEVAL/H.3.3: Information Search and Retrieval/H.3.3.4: Retrieval models ,TELEDETECTION ,LINGUISTIQUE - Abstract
International audience; Multilingual document classification is often addressed by approaches that rely on language-specific resources (e.g., bilingual dictionaries and machine translation tools) to evaluate cross-lingual document similarities. However, the required transformations may alter the original document semantics, raising additional issues to the known difficulty of obtaining high-quality labeled datasets. To overcome such issues we propose a new framework for multilingual document classification under a transductive learning setting. We exploit a large-scale multilingual knowledge base, BabelNet, to support the modeling of different language-written documents into a common conceptual space, without requiring any language translation process. We resort to a state-of-the-art transductive learner to produce the document classification. Results on two real-world multilingual corpora have highlighted the effectiveness of the proposed document model w.r.t. document representations usually involved in multilingual and cross-lingual analysis, and the robustness of the transductive setting for multilingual document classification.
- Published
- 2015
- Full Text
- View/download PDF
22. Lignines et parois végétales : recueil documentaire 'ReDoc': Volume 3 , révisé, complet, 'C'
- Author
-
Monties, Bernard and Independent Researcher
- Subjects
recueil Documentaire 'ReDoc' ,electronic édition ,édition électronique ,Data base ,e-book ,bibliothèque de fichiers numériques ,base de connaissances ,[SDV]Life Sciences [q-bio] ,documentary recollection 'ReDoc' ,knowledge base ,numeric file library 'ReDoc' ,Livrel - Abstract
National audience; Main scientific interest, principles and procedures of organisation of numerized ‘data-base’ as 'source of knowledges' were critically described in the special issue of « Cellulose Chemistry and Technology, 2006, 40 (9-10) : 685-690 » focussed on lignin and plant cell walls chemistry and technology, outlined by some glance on the emergence of scientific concepts in the cases of cellulose, lignin and plants cell wall chemistry. A free public acces of this paper in Prodinra, is paper is freely at « http://prodinra.inra.fr/record/32691 ». The corresponding practical organisation of the related sets of electronic files as ‘documentary recollection’, named ReDoc for ‘Recueil documentaire’ in French, developed at INRA are illustrated here in one of the complete four specific domains 'C', biological chemistry, of the ReDoc data base.
- Published
- 2015
23. Looking for Opinion in Land-Use Planning Corpora
- Author
-
Mathieu Roche, Cédric Lopez, Maguelonne Teisseire, Eric Kergosien, ADVanced Analytics for data SciencE (ADVANSE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA), VISEO, Numev (Labex), Geosud (Equipex), Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA)-AgroParisTech-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad), and Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[SPI.OTHER]Engineering Sciences [physics]/Other ,Computer science ,land use planning ,02 engineering and technology ,Fouille de données ,computer.software_genre ,Corpus ,Aménagement du territoire ,050105 experimental psychology ,Base de connaissances ,0202 electrical engineering, electronic engineering, information engineering ,0501 psychology and cognitive sciences ,Relevance (information retrieval) ,Land-use planning ,Opinion-mining ,Lexique ,05 social sciences ,Sentiment analysis ,000 - Autres thèmes ,Text-Mining ,Méthode ,Data science ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,C30 - Documentation et information ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,lexicon ,020201 artificial intelligence & image processing ,knowledge base ,Data mining ,P01 - Conservation de la nature et ressources foncières ,U30 - Méthodes de recherche ,computer - Abstract
International audience; A great deal of research on opinion mining and sentiment analysis has been done in specific contexts such as movie reviews, commercial evaluations, campaign speeches, etc. In this paper, we raise the issue of how appropriate these methods are for documents related to land-use planning. After highlighting limitations of existing proposals and discussing issues related to textual data, we present the method called Opiland (OPinion mIning from LAND-use planning documents) designed to semi-automatically mine opinions in specialized contexts. Experiments are conducted on a land-use planning dataset, and on three datasets related to others areas highlighting the relevance of our proposal.
- Published
- 2014
- Full Text
- View/download PDF
24. Distributed data management with a declarative rule-based language webdamlog
- Author
-
Antoine, Emilien, Laboratoire Spécification et Vérification [Cachan] (LSV), École normale supérieure - Cachan (ENS Cachan)-Centre National de la Recherche Scientifique (CNRS), Verification in databases (DAHU), École normale supérieure - Cachan (ENS Cachan)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Cachan (ENS Cachan)-Centre National de la Recherche Scientifique (CNRS)-Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Université Paris Sud - Paris XI, Serge Abiteboul(serge.abiteboul@inria.fr), Webdam, and Serge Abiteboul
- Subjects
Datalog ,Knowledge Base ,Pair à pair ,Web Data Management ,[INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB] ,Base de connaissances ,Gestion de données du Web ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,Distribution ,Peer to Peer - Abstract
Our goal is to enable a Web user to easily specify distributed data management tasks in place, i.e. without centralizing the data to a single provider. Our system is therefore not a replacement for Facebook, or any centralized system, but an alternative that allows users to launch their own peers on their machines processing their own local personal data, and possibly collaborating with Web services. We introduce Webdamlog, a datalog-style language for managing distributed data and knowledge. The language extends datalog in a number of ways, notably with a novel feature, namely delegation, allowing peers to exchange not only facts but also rules. We present a user study that demonstrates the usability of the language. We describe a Webdamlog engine that extends a distributed datalog engine, namely Bud, with the support of delegation and of a number of other novelties of Webdamlog such as the possibility to have variables denoting peers or relations. We mention novel optimization techniques, notably one based on the provenance of facts and rules. We exhibit experiments that demonstrate that the rich features of Webdamlog can be supported at reasonable cost and that the engine scales to large volumes of data. Finally, we discuss the implementation of a Webdamlog peer system that provides an environment for the engine. In particular, a peer supports wrappers to exchange Webdamlog data with non-Webdamlog peers. We illustrate these peers by presenting a picture management application that we used for demonstration purposes.; Notre but est de permettre à un utilisateur du Web d'organiser la gestion de ses données distribuées en place, c'est à dire sans l'obliger à centraliser ses données chez un unique hôte. Par conséquent, notre système diffère de Facebook et des autres systèmes centralisés, et propose une alternative permettant aux utilisateurs de lancer leurs propres pairs sur leurs machines gérant localement leurs données personnelles et collaborant éventuellement avec des services Web externes. Dans ma thèse, je présente Webdamlog, un langage dérivé de datalog pour la gestion de données et de connaissances distribuées. Le langage étend datalog de plusieurs manières, principalement avec une nouvelle propriété la délégation, autorisant les pairs à échanger non seulement des faits (les données) mais aussi des règles (la connaissance). J'ai ensuite mené une étude utilisateur pour démontrer l'utilisation du langage. Enfin je décris le moteur d'évaluation de Webdamlog qui étend un moteur d'évaluation de datalog distribué nommé Bud, en ajoutant le support de la délégation et d'autres innovations telles que la possibilité d'avoir des variables pour les noms de pairs et des relations. J'aborde de nouvelles techniques d'optimisation, notamment basées sur la provenance des faits et des règles. Je présente des expérimentations qui démontrent que le coût du support des nouvelles propriétés de Webdamlog reste raisonnable même pour de gros volumes de données. Finalement, je présente l'implémentation d'un pair Webdamlog qui fournit l'environnement pour le moteur. En particulier, certains adaptateurs permettant aux pairs Webdamlog d'échanger des données avec d'autres pairs sur Internet. Pour illustrer l'utilisation de ces pairs, j'ai implémenté une application de partage de photos dans un réseau social en Webdamlog.
- Published
- 2013
25. Gestion des données distribuées avec le langage de règles Webdamlog
- Author
-
Antoine, Emilien, Laboratoire Spécification et Vérification [Cachan] (LSV), École normale supérieure - Cachan (ENS Cachan)-Centre National de la Recherche Scientifique (CNRS), Université Paris Sud - Paris XI, and Serge Abiteboul
- Subjects
Knowledge Base ,Datalog ,Web Data Management ,Pair à pair ,Base de connaissances ,Gestion de données du Web ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,Distribution ,Peer to Peer - Abstract
Our goal is to enable aWeb user to easily specify distributed data managementtasks in place, i.e. without centralizing the data to a single provider. Oursystem is therefore not a replacement for Facebook, or any centralized system,but an alternative that allows users to launch their own peers on their machinesprocessing their own local personal data, and possibly collaborating with Webservices.We introduce Webdamlog, a datalog-style language for managing distributeddata and knowledge. The language extends datalog in a numberof ways, notably with a novel feature, namely delegation, allowing peersto exchange not only facts but also rules. We present a user study thatdemonstrates the usability of the language. We describe a Webdamlog enginethat extends a distributed datalog engine, namely Bud, with the supportof delegation and of a number of other novelties of Webdamlog such as thepossibility to have variables denoting peers or relations. We mention noveloptimization techniques, notably one based on the provenance of facts andrules. We exhibit experiments that demonstrate that the rich features ofWebdamlog can be supported at reasonable cost and that the engine scales tolarge volumes of data. Finally, we discuss the implementation of a Webdamlogpeer system that provides an environment for the engine. In particular, a peersupports wrappers to exchange Webdamlog data with non-Webdamlog peers.We illustrate these peers by presenting a picture management applicationthat we used for demonstration purposes.; Notre but est de permettre à un utilisateur du Web d’organiser la gestionde ses données distribuées en place, c’est à dire sans l’obliger à centraliserses données chez un unique hôte. Par conséquent, notre système diffèrede Facebook et des autres systèmes centralisés, et propose une alternativepermettant aux utilisateurs de lancer leurs propres pairs sur leurs machinesgérant localement leurs données personnelles et collaborant éventuellementavec des services Web externes.Dans ma thèse, je présente Webdamlog, un langage dérivé de datalogpour la gestion de données et de connaissances distribuées. Le langage étenddatalog de plusieurs manières, principalement avec une nouvelle propriété ladélégation, autorisant les pairs à échanger non seulement des faits (les données)mais aussi des règles (la connaissance). J’ai ensuite mené une étude utilisateurpour démontrer l’utilisation du langage. Enfin je décris le moteur d’évaluationde Webdamlog qui étend un moteur d’évaluation de datalog distribué nomméBud, en ajoutant le support de la délégation et d’autres innovations tellesque la possibilité d’avoir des variables pour les noms de pairs et des relations.J’aborde de nouvelles techniques d’optimisation, notamment basées sur laprovenance des faits et des règles. Je présente des expérimentations quidémontrent que le coût du support des nouvelles propriétés de Webdamlogreste raisonnable même pour de gros volumes de données. Finalement, jeprésente l’implémentation d’un pair Webdamlog qui fournit l’environnementpour le moteur. En particulier, certains adaptateurs permettant aux pairsWebdamlog d’échanger des données avec d’autres pairs sur Internet. Pourillustrer l’utilisation de ces pairs, j’ai implémenté une application de partagede photos dans un réseau social en Webdamlog.
- Published
- 2013
26. Valoriser le patrimoine documentaire des entreprises par le prisme des métiers
- Author
-
Caroline Djambian, DJAMBIAN, CAROLINE, Laboratoire des Sciences de l'Information et des Systèmes (LSIS), Centre National de la Recherche Scientifique (CNRS)-Arts et Métiers Paristech ENSAM Aix-en-Provence-Université de Toulon (UTLN)-Aix Marseille Université (AMU), and Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Arts et Métiers Paristech ENSAM Aix-en-Provence-Centre National de la Recherche Scientifique (CNRS)
- Subjects
documentary heritage ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,05 social sciences ,06 humanities and the arts ,knowledge management ,0603 philosophy, ethics and religion ,050105 experimental psychology ,[SHS.INFO] Humanities and Social Sciences/Library and information sciences ,base de connaissances ,8. Economic growth ,060302 philosophy ,technical document ,patrimoine documentaire ,terminologie ,terminology ,document technique ,0501 psychology and cognitive sciences ,knowledge base ,ontology ,gestion des connaissances ,ontologie - Abstract
The documentary heritage of firms has often been accumulated without that they could adapt to the pace of ICT developments. Collective memory that never stops being produced sees its mass growing, becomes scattered and heterogeneous, and many companies today face transverse problems struggle to mobilize their knowledge operationally. We present here the specific case of the Nuclear Engineering Division of EDF France and the need to upgrade its information heritage. We explain why a job of contextualization is essential these cases, to locate the operating mode of the information system in a largest structural problem, technical aspects having to be quickly overwhelmed in order to consider the organization as a whole. In this context, where micro and macro issues mingle, the core business of the company emerges as the basis for any reflection. Documentation produced and used, vehicles the technical knowledge of the company, which is expressed by specific business core's concepts. Their terminology is the key to knowledge enhancement and a better management of the documentary heritage through which they pass. Through the example of the DIN, we present our approach resolutely empirical and qualitative, to evolve the system to a knowledge base centered on the "business core meaning" of the company., Le patrimoine documentaire des entreprises s'est souvent accumulé sans que ces dernières puissent s'adapter au rythme des évolutions des TIC. La mémoire collective qui ne cesse d'être produite voit sa masse croître, est devenue éparse et hétérogène et nombre d'entreprises aujourd'hui confrontées à des problématiques transverses ont du mal à mobiliser leurs connaissances de façon opérationnelle. Nous présentons ici le cas de la Division Ingénierie Nucléaire (DIN) d'EDF et la nécessité de valoriser son patrimoine informationnel. Nous exposons pourquoi un travail amont de contextualisation est essentiel dans des cas comme celui-ci, afin de situer le mode de fonctionnement du système d'information dans une problématique structurelle, les aspects techniques devant être rapidement dépassés pour prendre en compte l'organisation dans sa globalité. Dans ce contexte où problématiques micro et macro se confondent, les métiers cœurs de l'entreprise s'imposent comme la base de toute réflexion. La documentation qu'ils produisent et utilisent véhicule les connaissances techniques de l'entreprise, qui y sont exprimées par des concepts propres aux métiers. Leur terminologie est la clé permettant de valoriser les connaissances et de mieux gérer le patrimoine documentaire par lequel elles transitent. A travers l'exemple de la DIN, nous présentons notre approche résolument empirique et qualitative, pour faire évoluer le système existant vers une base de connaissances centrée sur le " sens métier " de l'organisation. Mots-clés : patrimoine documentaire, document technique, gestion des connaissances, base de connaissances, ontologie, terminologie.
- Published
- 2011
27. Valuation of an industrial documentary heritage and evolution toward a knowledge management business oriented system
- Author
-
Djambian, Caroline, Equipe de recherche de Lyon en sciences de l'information et de la communication (ELICO), Université Lumière - Lyon 2 (UL2)-École nationale supérieure des sciences de l'information et des bibliothèques (ENSSIB), Université de Lyon-Université de Lyon-Sciences Po Lyon - Institut d'études politiques de Lyon (IEP Lyon), Université de Lyon-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon, Université Jean Moulin - Lyon III, Sylvie Lainé-Cruzel, DJAMBIAN, CAROLINE, Sciences Po Lyon - Institut d'études politiques de Lyon (IEP Lyon), Université de Lyon-Université de Lyon-École nationale supérieure des sciences de l'information et des bibliothèques (ENSSIB), and Université de Lyon-Université Lumière - Lyon 2 (UL2)
- Subjects
documentary heritage ,knowledge management ,[SHS]Humanities and Social Sciences ,base de connaissances ,technical document ,terminology ,patrimoine documentaire ,terminologie ,document technique ,knowledge base ,[SHS] Humanities and Social Sciences ,ontology ,gestion des connaissances ,ontologie - Abstract
Documentary heritage of firms has often accumulated without that they can adapt to the pace of information technologies' developments. Collective memory ever to be produced sees its mass growing and becomes scattered and heterogeneous. Like many companies, cross-cutting issues today impose the EDF Nuclear Engineering Division (DIN) being able to mobilize its knowledge operationally. But the valuation of its information heritage goes far beyond technical aspects to take into account the organization as a whole. These are indeed the core business of the company which are the starting point of our reflection. In this engineering context the technical knowledge pass through the documentation and is expressed by specific business concepts. The terminology of trades is the key to valorize the knowledge and better manage the patrimony of the DIN. It allows us to go towards an explicit representation, in a knowledge base centered on the "business sense" of the organization. Our approach resolutely empirical and qualitative results in a method of constructing a trades' knowledge base applied to a delimited area of the EDF Nuclear Engineering Division., Le patrimoine documentaire des entreprises s'est souvent accumulé sans que ces dernières puissent s'adapter au rythme des évolutions des technologies de l'information. La mémoire collective qui ne cesse d'être produite voit sa masse croître et est devenue éparse et hétérogène. Comme nombre d'entreprises, des problématiques transverses imposent aujourd'hui à la Division Ingénierie Nucléaire (DIN) d'EDF d'être capable de mobiliser ses connaissances de façon opérationnelle. Mais la valorisation de son patrimoine informationnel dépasse largement les aspects techniques pour prendre en compte l'organisation dans sa globalité. Ce sont en effet les métiers cœurs de l'entreprise qui sont le point de départ de notre réflexion. Dans ce contexte d'ingénierie c'est par la documentation que les connaissances techniques transitent et sont exprimées par des concepts propres aux métiers. La terminologie métiers est la clé permettant de valoriser les connaissances et de mieux gérer le patrimoine de la DIN. Elle nous permet d'aller vers une représentation explicite, au sein d'une base de connaissances centrée sur le " sens métier " de l'organisation. Notre approche résolument empirique et qualitative aboutit à une méthode de construction d'une base de connaissances métiers appliquée à un domaine délimité de la Division Ingénierie Nucléaire d'EDF.
- Published
- 2010
28. Définition d'une logique probabiliste tolérante à l'inconsistance : appliquée à la reconnaissance de scénarios et à la théorie du vote
- Author
-
Daniel, Lionel, Centre de Mathématiques Appliquées (CMA), MINES ParisTech - École nationale supérieure des mines de Paris, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL), École Nationale Supérieure des Mines de Paris, and Valérie Roy
- Subjects
logic ,probability ,probabilité ,base de connaissances ,reasonning ,inconsistency tolerance ,knowledge base ,measure ,logique ,mesure ,raisonnement ,inconsistance ,[SPI.AUTO]Engineering Sciences [physics]/Automatic - Abstract
If we envisage delegating critical decisions to an autonomous computer, we should not only endow it with common sense, but also formally verify that such a machine is programmed to safely react in every situation, notably when the situation is depicted with uncertainty. In this thesis, I deem an uncertain situation to be a possibly inconsistent probabilistic propositional knowledge base, which is a possibly unsatisfiable multiset of constraints on a probability distribution over a propositional language, where each constraint can be given a reliability level. The main problem is to infer one probabilistic distribution that best represents the real world, with respect to a given knowledge base. The reactions of the computer, previously programmed then verified, will be determined by that distribution, which is the probabilistic model of the real world. J.B. Paris et al stated a set of seven commonsensical principles that characterises the inference from consistent knowledge bases. Following their approach, I suggest adhering to further principles intended to define common sense when reasoning from an inconsistent knowledge base. My contribution is thus the first principled framework of paraconsistent probabilistic reasoning that comprises not only an inference process, which coincides with J.B. Paris's one when dealing with consistent knowledge bases, but also several measures of dissimilarity, inconsistency, incoherence, and precision. Besides, I show that such an inference process is a solution to a problem originating from voting theory, namely reaching a consensus among conflicting opinions about a probability distribution; such a distribution can also represent a distribution of a financial investment. To conclude, this study enhances our understanding of common sense when dealing with inconsistencies; injecting common sense into decision systems should make them more trustworthy.; Les humains raisonnent souvent en présence d'informations contradictoires. Dans cette thèse, j'ébauche une axiomatisation du sens commun sous-jacent à ce raisonnement dit paraconsistant. L'implémentation de cette axiomatisation dans les ordinateurs autonomes sera essentielle si nous envisageons de leur déléguer des décisions critiques ; il faudra également vérifier formellement que leurs réactions soient sans risque en toute situation, même incertaine. Une situation incertaine est ici modélisée par une base de connaissances probabilistes éventuellement inconsistante ; c'est un multi-ensemble de contraintes éventuellement insatisfiable sur une distribution de probabilité de phrases d'un langage propositionnel, où un niveau de confiance peut être attribué à chaque contrainte. Le principal problème abordé est l'inférence de la distribution de probabilité qui représente au mieux le monde réel, d'après une base de connaissances donnée. Les réactions de l'ordinateur, préalablement programmées puis vérifiées, seront déterminées par cette distribution, modèle probabiliste du monde réel. J.B. Paris et al. ont énoncé un ensemble de sept principes, dit de sens commun, qui caractérise l'inférence dans les bases de connaissances probabilistes consistantes. Poursuivant leurs travaux de définition du sens commun, je suggère l'adhésion à de nouveaux principes régissant le raisonnement dans les bases inconsistantes. Ainsi, je définis les premiers outils théoriques fondés sur des principes pour raisonner de manière probabiliste en tolérant l'inconsistance. Cet ensemble d'outils comprend non seulement des mesures de dissimilarité, d'inconsistance, d'incohérence et de précision, mais aussi un processus d'inférence coïncidant avec celui de J.B. Paris dans le cas consistant. Ce processus d'inférence résout un problème de la théorie du vote, c'est-à-dire l'obtention d'un consensus parmi des opinions contradictoires à propos d'une distribution de probabilité telle que la répartition d'un investissement financier. Finalement, l'inconsistance n'est qu'une forme d'incertitude qui ne doit pas entraver notre raisonnement, ni celui des ordinateurs : peut-être qu'une plus grande confiance leur sera accordée s'ils fondent leurs décisions sur notre sens commun.
- Published
- 2010
29. Paraconsistent probabilistic reasoning: applied to scenario recognition and voting theory
- Author
-
Daniel, Lionel, Centre de Mathématiques Appliquées (CMA), MINES ParisTech - École nationale supérieure des mines de Paris, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL), École Nationale Supérieure des Mines de Paris, and Valérie Roy
- Subjects
logic ,probability ,probabilité ,base de connaissances ,reasonning ,inconsistency tolerance ,knowledge base ,measure ,logique ,mesure ,raisonnement ,inconsistance ,[SPI.AUTO]Engineering Sciences [physics]/Automatic - Abstract
If we envisage delegating critical decisions to an autonomous computer, we should not only endow it with common sense, but also formally verify that such a machine is programmed to safely react in every situation, notably when the situation is depicted with uncertainty. In this thesis, I deem an uncertain situation to be a possibly inconsistent probabilistic propositional knowledge base, which is a possibly unsatisfiable multiset of constraints on a probability distribution over a propositional language, where each constraint can be given a reliability level. The main problem is to infer one probabilistic distribution that best represents the real world, with respect to a given knowledge base. The reactions of the computer, previously programmed then verified, will be determined by that distribution, which is the probabilistic model of the real world. J.B. Paris et al stated a set of seven commonsensical principles that characterises the inference from consistent knowledge bases. Following their approach, I suggest adhering to further principles intended to define common sense when reasoning from an inconsistent knowledge base. My contribution is thus the first principled framework of paraconsistent probabilistic reasoning that comprises not only an inference process, which coincides with J.B. Paris's one when dealing with consistent knowledge bases, but also several measures of dissimilarity, inconsistency, incoherence, and precision. Besides, I show that such an inference process is a solution to a problem originating from voting theory, namely reaching a consensus among conflicting opinions about a probability distribution; such a distribution can also represent a distribution of a financial investment. To conclude, this study enhances our understanding of common sense when dealing with inconsistencies; injecting common sense into decision systems should make them more trustworthy.; Les humains raisonnent souvent en présence d'informations contradictoires. Dans cette thèse, j'ébauche une axiomatisation du sens commun sous-jacent à ce raisonnement dit paraconsistant. L'implémentation de cette axiomatisation dans les ordinateurs autonomes sera essentielle si nous envisageons de leur déléguer des décisions critiques ; il faudra également vérifier formellement que leurs réactions soient sans risque en toute situation, même incertaine. Une situation incertaine est ici modélisée par une base de connaissances probabilistes éventuellement inconsistante ; c'est un multi-ensemble de contraintes éventuellement insatisfiable sur une distribution de probabilité de phrases d'un langage propositionnel, où un niveau de confiance peut être attribué à chaque contrainte. Le principal problème abordé est l'inférence de la distribution de probabilité qui représente au mieux le monde réel, d'après une base de connaissances donnée. Les réactions de l'ordinateur, préalablement programmées puis vérifiées, seront déterminées par cette distribution, modèle probabiliste du monde réel. J.B. Paris et al. ont énoncé un ensemble de sept principes, dit de sens commun, qui caractérise l'inférence dans les bases de connaissances probabilistes consistantes. Poursuivant leurs travaux de définition du sens commun, je suggère l'adhésion à de nouveaux principes régissant le raisonnement dans les bases inconsistantes. Ainsi, je définis les premiers outils théoriques fondés sur des principes pour raisonner de manière probabiliste en tolérant l'inconsistance. Cet ensemble d'outils comprend non seulement des mesures de dissimilarité, d'inconsistance, d'incohérence et de précision, mais aussi un processus d'inférence coïncidant avec celui de J.B. Paris dans le cas consistant. Ce processus d'inférence résout un problème de la théorie du vote, c'est-à-dire l'obtention d'un consensus parmi des opinions contradictoires à propos d'une distribution de probabilité telle que la répartition d'un investissement financier. Finalement, l'inconsistance n'est qu'une forme d'incertitude qui ne doit pas entraver notre raisonnement, ni celui des ordinateurs : peut-être qu'une plus grande confiance leur sera accordée s'ils fondent leurs décisions sur notre sens commun.
- Published
- 2010
30. Évaluation de solutions de traduction pour les services Semantia
- Author
-
Paroz, Lucile, LLASIC Sciences du langage & FLES, UGA, Université Stendhal - Grenoble 3 - UFR des Sciences du langage, Université Stendhal - Grenoble 3, and Georges Antoniadis
- Subjects
Knowledge base ,Translation ,Traduction ,Base de connaissances ,Traduction automatique ,Machine translation ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
The domain of the machine translation does not offer perfect tools, but they can be useful to understand the general sense of a text. They are generally more successful when texts deal with a specific domain. The knowledge bases of Semantia are designed for a predefined domain. We are wondering how to adapt a knowledge base to the other languages. Two solutions were envisaged and are going to be tested. We can arrange several knowledge bases and each of them will correspond to a language, or we can use a machine translation system with a single knowledge base., Le domaine de la traduction automatique ne propose pas d'outils parfaits, mais ils se révèlent utiles pour saisir le sens général d'un texte. Ils sont généralement plus performants lorsque les textes traitent d'un domaine en particulier. Les bases de connaissances de Semantia sont justement créées pour un domaine prédéfini. Nous nous sommes interrogée sur la façon d'adapter une base de connaissances Semantia à d'autres langues. Deux solutions ont été envisagées et vont être évaluées. Nous pouvons disposer de plusieurs bases de connaissances et à chacune d'entre elles correspondra une langue, ou nous pouvons utiliser un système de traduction automatique avec une seule base de connaissances.
- Published
- 2010
31. Automatic feeding of a knowledge base starting from natural language texts
- Author
-
Al Haj Hasan, Issam, Laboratoire d'Informatique, de Modélisation et d'optimisation des Systèmes (LIMOS), SIGMA Clermont (SIGMA Clermont)-Université d'Auvergne - Clermont-Ferrand I (UdA)-Ecole Nationale Supérieure des Mines de St Etienne-Centre National de la Recherche Scientifique (CNRS)-Université Blaise Pascal - Clermont-Ferrand 2 (UBP), Université Blaise Pascal - Clermont-Ferrand II, Michel Schneider, Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université d'Auvergne - Clermont-Ferrand I (UdA)-SIGMA Clermont (SIGMA Clermont)-Ecole Nationale Supérieure des Mines de St Etienne (ENSM ST-ETIENNE)-Centre National de la Recherche Scientifique (CNRS), and Meyer, Camille
- Subjects
TRIZ ,[INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB] ,règle d'extraction ,innovation ressource ,innovation resource ,texte en langue naturelle ,système de question-réponse ,natural language text ,innovation ,innovation operator ,automatic feeding ,question answer system ,extraction rule ,base de connaissances ,innovation operateur ,[INFO.INFO-DB] Computer Science [cs]/Databases [cs.DB] ,knowledge base ,information extraction ,ontology ,enrichissement automatique extraction d'information ,ontologie - Abstract
In this work, we were interested in automatic feeding of a knowledge base for innovation aid. This process relies on domain ontology. The knowledge base is organized around innovation operators. It is initialized by an expert who must define the operators and their associated innovation resources. Then the automatic feeding system allows the enrichment of this base by examples of inventive problemsolving from natural language texts. This system implements a new information extraction approach. This approach is not specific to the innovation domain and can be adapted to other problems for extracting information in other domains., Dans ce travail nous nous sommes intéressés à l'alimentation automatique d'une base de connaissances pour l'aide à l'innovation. Ce processus s'appuie sur une ontologie du domaine. La base de connaissances est organisée autour des opérateurs d'innovation. Cette base est initialisée par un expert qui doit définir les opérateurs concernés et les ressources associées. Le système d'alimentation automatique permet alors l'enrichissement de cette base par des exemples de résolution de problèmes d'innovation à partir de textes en langue naturelle. Ce système met en oeuvre une nouvelle approche pour l'extraction automatique d'informations. Cette approche n'est pas spécifique à l'innovation et peut être adaptée à d'autres problèmes d'extraction d'informations dans d'autres domaines.
- Published
- 2008
32. Construction et utilisation d'une base de connaissances pharmacogénomique pour l'intégration de données et la découverte de connaissances
- Author
-
Coulet, Adrien, Knowledge representation, reasonning (ORPAILLEUR), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Université Henri Poincaré - Nancy 1, Marie-Dominique Devignes (marie-dominique.devignes@loria.fr), and Coulet, Adrien
- Subjects
pharmacogenomics ,description logics ,knowledge discovery in databases ,sélection de données ,knowledge representation ,logiques de descriptions ,SNP ,représentation des connaissances ,extraction de connaissances à partir de bases de données ,[SDV.BBM.BC]Life Sciences [q-bio]/Biochemistry, Molecular Biology/Biomolecules [q-bio.BM] ,feature selection ,base de connaissances ,intégration de données ,knowledge base ,ontology ,[INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC] ,[INFO.INFO-HC] Computer Science [cs]/Human-Computer Interaction [cs.HC] ,[SDV.BBM.BC] Life Sciences [q-bio]/Biochemistry, Molecular Biology/Biochemistry [q-bio.BM] ,data integration ,ontologie ,pharmacogénomique - Abstract
This thesis studies the use of ontology and knowledge base for guiding various steps of the Knowledge Discovery in Databases (KDD) process in the domain of pharmacogenomics.Data related to this domain are heterogeneous, complex, and disseminated through several data sources. Consequently, the preliminary step that consists in the preparation and the integration of data is crucial. For guiding this step, an original approach is proposed, based on a knowledge representation of the domain within two ontologies in description logics: SNP-Ontology and SO-Pharm. This approach has been implemented using semantic Web technologies and leads finally to populating a pharmacogenomic knowledge base. As a result, data to analyze are represented in the knowledge base, which is a benefit for guiding following steps of the knowledge discovery process. Firstly, I study this benefit for feature selection by illustrating how the knowledge base can be used for this purpose. Secondly, I describe and apply to pharmacogenomics a new method named Role Assertion Analysis (or RAA) that enables knowledge discovery directly from knowledge bases. This method uses data mining algorithms over assertions of our pharmacogenomic knowledge base and results in the discovery of new and relevant knowledge., Cette thèse porte sur l'utilisation d'ontologies et de bases de connaissances pour guider différentes étapes du processus d'Extraction de Connaissances à partir de Bases de Données (ECBD) et sur une application en pharmacogénomique. Les données relatives à ce domaine sont hétérogènes, complexes, et distribuées dans diverses bases de données, ce qui rend cruciale l'étape préliminaire de préparation et d'intégration des données à fouiller. Je propose pour guider cette étape une approche originale d'intégration de données qui s'appuie sur une représentation des connaissances du domaine sous forme de deux ontologies en logiques de description : SNP-Ontology et SO-Pharm. Cette approche a été implémentée grâce aux technologies du Web sémantique et conduit au peuplement d'une base de connaissances pharmacogénomique. Le fait que les données à fouiller soient alors disponibles dans une base de connaissances entraîne de nouvelles potentialités pour le processus d'extraction de connaissances. Je me suis d'abord intéressé au problème de la sélection des données les plus pertinentes à fouiller en montrant comment la base de connaissances peut être exploitée dans ce but. Ensuite j'ai décrit et appliqué à la pharmacogénomique, une méthode qui permet l'extraction de connaissances directement à partir d'une base de connaissances. Cette méthode appelée Analyse des Assertions de Rôles (ou AAR) permet d'utiliser des algorithmes de fouille de données sur un ensemble d'assertions de la base de connaissances pharmacogénomique et d'expliciter des connaissances nouvelles et pertinentes qui y étaient enfouies.
- Published
- 2008
33. Taxonomie des connaissances et exploitation en conception préliminaire : application à un système éolien
- Author
-
Sallaou, Mohamed, Transferts, écoulements, fluides, énergétique (TREFLE), Université Sciences et Technologies - Bordeaux 1-École Nationale Supérieure de Chimie et de Physique de Bordeaux (ENSCPB)-Centre National de la Recherche Scientifique (CNRS), Arts et Métiers ParisTech, Jean-Pierre Nadeau, and Jérôme Pailhès
- Subjects
Knowledge base ,[SPI]Engineering Sciences [physics] ,Knowledge taxonomy ,Base de connaissances ,Conception préliminaire ,Design support ,Taxonomie des connaissances ,Energy analysis ,Arrangement of components - Abstract
Methods of the knowledge structuring in mechanical design, based on functional approaches are analysed and compared. A semantic analysis conducted in conjunction with functional analysis has showed that it is difficult to carry out a database if the diversity of verbs used is not reduced or limited. We propose an energy approach based on the Law of System discrete direct differentiation method, Completeness. The achievement of a function goes through the transformation of an energy converter, this energy is transmitted by a transmitter and used by the operator to perform the action, and the operator can only be a transmitter or a converter. Thus, we reduce the system to 3 entities plus the entity of Control/Order. Moreover, we note that we limit, as first level, action verbs to two verbs such as convert and transmit. This first level will be followed by the one which includes more accurate synonyms verbs associated with supplements that are directly associated with identified components. Thus we can define a taxonomy that allows you to build a knowledge base of components based on energy, transformation and transmission. It is associated with an organic structure systematic and repeatable at each level of analysis. A preliminary design method is developed from the use of a aforesaid database. The energy analysis of the implementation of the action allows building a technical flowchart particular technical and to choose in the database of components such as converters and transmitters. Then, we proceed to the arrangement of these components and select the standard interaction components basing on logics, similar to the mechanisms theory. The next phase consists to recover the associated physical models (law of the energy conservation) in the database and select the produced effects and then induced effects in order to achieve a global model system for use in preliminary design. The result of simulation can calculate variables related to the assessment criteria of functional requirement that give the elements of a decision support. The study of a wind turbine system, particularly the design of the gearbox (transmitter) and its cooling system (controlling induced effects) serves as an example of the use of the database and the associated design method.; Résume : Les méthodes de structuration de la connaissance en conception, basées sur des visions fonctionnelles sont analysées et comparées. On procède à une analyse sémantique en liaison avec l'analyse fonctionnelle et on conclut qu'il est difficile de réaliser une base de données s'il on ne réduit pas la diversité des verbes utilisés. Nous proposons une vision énergétique à partir de la loi dite d'intégralité des parties qui décompose un système en entités particulières. La réalisation d'une fonction passe par la transformation d'une énergie par un convertisseur, cette énergie est transmise par un transmetteur et utilisée par l'opérateur pour exercer l'action, l'opérateur ne peut être qu'un transmetteur ou un convertisseur. Ainsi nous réduisons le système à 3 entités auxquelles s'ajoute l'entité de contrôle /commande. De surcroît, nous remarquons que nous limitons, au premier niveau, les verbes d'action à 2 verbes, convertir et transmettre. Ce premier niveau sera suivi de niveau auxquels comprenant des verbes synonymes plus précis associés à des compléments directement associés à des composants identifiés. Ainsi on peut définir une taxonomie qui permet de construire une base de connaissances de composants basée sur l'énergie, sa transformation et sa transmission. Cette base est associée à une structuration organique systématique et reproductible à chaque niveau d'analyse. Une méthode de conception préliminaire est élaborée à partir de l'utilisation de cette base. L'analyse énergétique de la réalisation de l'action permet de construire un organigramme technique particulier et de choisir dans la base des composants les convertisseurs et transmetteurs. Ensuite on procède à l'agencement de ces composants et on sélectionne les composants d'interaction standard à partir de logiques proche de la théorie des mécanismes. La phase suivante consiste à récupérer les modèles physiques associés (loi de conservation de l'énergie) dans la base et de sélectionner les effets produits puis induits afin de réaliser un modèle global du système utilisable en conception préliminaire. Les résultats de simulation permettent de calculer les variables liées aux critères d'appréciation de CdCF qui donnent les éléments d'aide à la décision. L'étude d'un système éolien, en particulier la conception du multiplicateur (transmetteur) et de son système de refroidissement (maîtrise des effets induits) sert d'exemple d'utilisation de la base et de la méthode de conception associée.
- Published
- 2008
34. On the dynamics of generation and utilisation of knowledge: the local character of knowledge
- Author
-
Pier Paolo Saviotti, Laboratoire d'Economie Appliquée = Grenoble Applied Economics Laboratory (GAEL), and Université Pierre Mendès France - Grenoble 2 (UPMF)-Institut National de la Recherche Agronomique (INRA)
- Subjects
Economics and Econometrics ,Property (philosophy) ,Knowledge management ,BASE DE CONNAISSANCES ,Computer science ,[SHS]Humanities and Social Sciences ,Body of knowledge ,RECHERCHE-DEVELOPPEMENT ,Knowledge-based systems ,KNOWLEDGE BASE ,DIVISION OF LABOUR ,0502 economics and business ,CO-RELATIONAL STRUCTURE ,KNOWLEDGE ,050207 economics ,Structure (mathematical logic) ,COORDINATION ,business.industry ,05 social sciences ,Knowledge value chain ,DIVISION DU TRAVAIL ,SYSTEME DE CONNAISSANCE ,Knowledge base ,Organizational learning ,Specialization (logic) ,RETRIEVAL INTERPRETATIVE STRUCTURE ,business ,050203 business & management - Abstract
International audience; In this paper a theoretical framework for the analysis of knowledge suitable to study processes of knowledge generation and utilisation in advanced post-industrial societies is presented. This framework is based on two fundamental properties of knowledge, that of being a co-relational structure and that of being a retrieval/interpretative structure. The paper shows that a third property, the local character of knowledge, can be derived from the two fundamental ones. Furthermore, it is shown that the production of knowledge can be analysed by means of concepts currently used in economics, such as the division of labour, coordination, specialization, competition and so on. Finally, the paper shows that the framework proposed here is compatible with a number of epistemological concepts and theories and applicable to the empirical analysis of processes of knowledge generation and utilization in firms.
- Published
- 2007
- Full Text
- View/download PDF
35. River model calibration, from guidelines to operational support tools
- Author
-
Jean-Philippe Vidal, Jean-Baptiste Faure, Denis Dartus, Sabine Moisan, Hydrologie-Hydraulique (UR HHLY), Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA), Intelligent environments for the resolution of problems for autonomous systems (ORION), Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Institut de mécanique des fluides de Toulouse (IMFT), Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées, Université de Toulouse (UT)-Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT), Contrôle des décollements (CD), ENSMA-École Centrale de Lyon (ECL), Université de Lyon-Université de Lyon-Université de Lille, Sciences et Technologies-Université Joseph Fourier - Grenoble 1 (UJF)-Institut National Polytechnique (Toulouse) (Toulouse INP), and Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées
- Subjects
Engineering ,HYDRAULIQUE FLUVIALE ,Environmental Engineering ,BASE DE CONNAISSANCES ,010504 meteorology & atmospheric sciences ,Operations research ,Hydraulics ,Process (engineering) ,Calibration (statistics) ,CALAGE DE MODELE ,0207 environmental engineering ,02 engineering and technology ,01 natural sciences ,Task (project management) ,law.invention ,KNOWLEDGE BASED SYSTEM ,law ,Code (cryptography) ,Range (statistics) ,FLUVIAL HYDRAULICS ,AIDE A LA DECISION ,020701 environmental engineering ,0105 earth and related environmental sciences ,business.industry ,Ecological Modeling ,MODELISATION ,COURS D'EAU ,Knowledge base ,Data quality ,MODEL CALIBRATION ,[SDE]Environmental Sciences ,Systems engineering ,business ,Software - Abstract
[Departement_IRSTEA]RE [TR1_IRSTEA]RIE / TRANSFEAU; Numerical modelling is now used routinely to make predictions about the behaviour of environmental systems. Model calibration remains a critical step in the modelling process and different approaches have been taken to develop guidelines to support engineers and scientists in this task. This article reviews currently available guidelines for a river hydraulics modeller by dividing them into three types: on the calibration process, on hydraulic parameters, and on the use of hydraulic simulation codes. The article then presents an integration of selected guidelines within a knowledge-based calibration support system. A prototype called CaRMA-1 (Calibration of River Model Assistant) has been developed for supporting the calibration of models based on a specific 1D code. Two case studies illustrate the ability of the prototype to face operational situations in river hydraulics engineering, for which both data quality and quantity are not sufficient for an optimal calibration. Using CaRMA-1 allows the modeller to achieve the calibration task in accordance with good calibration practice implemented in the knowledge base. Relevant reasoning rules can easily be added to the knowledge base to extend the prototype range of applications. This study thus provides a framework for building operational support tools from various types of existing engineering guidelines.
- Published
- 2007
- Full Text
- View/download PDF
36. Expert guided integration of induced knowledge into a fuzzy knowledge base
- Author
-
Luis Magdalena, Serge Guillaume, Information – Technologies – Analyse Environnementale – Procédés Agricoles (UMR ITAP), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Centre national du machinisme agricole, du génie rural, des eaux et forêts (CEMAGREF)-Ecole Nationale Supérieure Agronomique de Montpellier (ENSA M), ETSI Telecomunicacion [Valladolid] (ETSI), and Université de Valladolid
- Subjects
0209 industrial biotechnology ,BASE DE CONNAISSANCES ,Computer science ,Semantic interpretation ,Computational intelligence ,02 engineering and technology ,METHODE ,LOGIQUE FLOUE ,computer.software_genre ,Fuzzy logic ,Theoretical Computer Science ,Conflict resolution strategy ,CONNAISSANCE EXPERTE ,Knowledge-based systems ,020901 industrial engineering & automation ,0202 electrical engineering, electronic engineering, information engineering ,Rule induction ,business.industry ,Legal expert system ,Expert system ,Knowledge base ,INFORMATIQUE ,[SDE]Environmental Sciences ,020201 artificial intelligence & image processing ,Geometry and Topology ,Data mining ,business ,computer ,Software - Abstract
Cet article propose une méthode pour construire des systèmes à la fois précis et interprétables en intégrant dans la même base de connaissance des éléments de connaissance experte et d'autres issus de données. Pour favoriser la coopération entre l'expert et les données, le processus d'induction est encadré par de sévères contraintes qui permettent à l'expert de garder le contrôle tout au long du processus. La procédure est séquentielle. Dans un premier temps un partitionnement flou est conçu à partir des données et de la connaissance experte. La compatibilité entre les deux types de partitions est vérifiée à partir de trois critères : domaine de variation, granularité et interprétation sémantique. Puis, des règles expertes et induites sont générées en tenant compte de ces partitions. Les deux bases de règles peuvent alors être fusionnées en une seule. Grâce au partitionnement commun, la comparaison des règles peut se faire au seul niveau linguistique. Les éventuels conflits sont gérés et les principales qualités d'une base de règles, cohérence, absence de redondance et complétude sont étudiées. La première étape est complètement décrite dans le cadre de l'article, tandis que la seconde est seulement introduite. / his paper proposes a method for building accurate and interpretable systems by integrating expert and induced knowledge into a single knowledge base. To favor the cooperation between expert knowledge and data, the induction process is run under severe constraints to ensure the fully control of the expert. The procedure is made up of two hierarchical steps. Firstly, a common fuzzy input space is designed according to both the data and expert knowledge. The compatibility of the two types of partitions, expert and induced, is checked according to three criteria: range, granularity and semantic interpretation. Secondly, expert rules and induced rules are generated according to the previous common fuzzy input space. Then, induced and expert rules have to be merged into a new rule base. Thanks to the common universe resulting from the first step, rule comparison can be made at the linguistic level only. The possible conflict situations are managed and the most important rule base features, consistency, redundancy and completeness, are studied. The first step is thoroughly described in this paper, while the second is only introduced.
- Published
- 2006
- Full Text
- View/download PDF
37. Une architecture à base de médiateurs pour la gestion de compétences
- Author
-
Boudjlida, Nacer, Benferroudj, Rebai, Environment for cooperation (ECOO), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
base de données ,description logics ,knowledge representation ,subsumption ,coopération ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,représentation des connaissances ,classification ,médiateur ,base de connaissances ,knowledge base ,mediation ,logique de description ,database - Abstract
Colloque avec actes et comité de lecture. internationale.; International audience; La capture, la mise en forme et l'exploitation de connaissances sur l'expertise ou les compétences d'un "objet" (comme un partenaire industriel, une personne, voire un composant logiciel) sont des problèmes cruciaux dans plusieurs types d'applications et particulièrement dans des applications distribuées coopératives ou des applications de type affaires électroniques (e-business) ou commerce électronique (e-commerce). Le travail décrit ici entre dans ce cadre. Il traite de la publication des capacités ou savoir-faire (que nous appellerons compétences) d'un "objet". Ces compétences sont organisées et structurées afin d'être exploitées pour la recherche d'objets pouvant satisfaire un objectif ou répondant à un besoin. En outre, nous nous fondons sur une représentation des connaissances par objets, utilisant les logiques de descriptions et sur un modèle d'architecture à base de médiateurs (traders) distribués et coopérants. Une des originalités de ce travail est la nature des réponses rendues lors d'une recherche. En effet, les réponses ne sont pas du type Oui/Non, mais elles peuvent être coopératives dans le sens où si aucun "objet" ne satisfait à lui tout seul une demande, on essaie de déterminer quels ensembles d'objets réunis la satisfont, chaque objet de l'ensemble ne la satisfaisant que partiellement. || The capture, the structuring and the exploitation of the expertise or the capabilities of an "object" (like an industrial partner, a person or a software component) are crucial problems in many types of applications, especially in cooperative and distribu
- Published
- 2002
38. Gestion des versions pour la construction incrémentale et partagée de bases de connaissances
- Author
-
Tayar, Nina, Institut d'Informatique et de Mathématiques Appliquées de Grenoble (IMAG), Université Joseph Fourier - Grenoble 1 (UJF)-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS), Object Knowledge Bases (SHERPA), Inria Grenoble - Rhône-Alpes, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Université Joseph-Fourier - Grenoble I, Rechenmann François, and Imag, Thèses
- Subjects
version d'instance ,version de classe ,object-based knowledge representation language ,représentation de connaissance à objet ,consensual knowledge ,incremental and concurrent knowledge base building ,Knowledge base ,construction incrémentale et partagée de bases de connaissances ,Base de connaissances ,version de base de connaissances ,[INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC] ,[INFO.INFO-HC] Computer Science [cs]/Human-Computer Interaction [cs.HC] ,knowledge base version ,instance version ,class version ,connaissances consensuelles ,computer-aided collaborative research - Abstract
For major scientific and technical domains, traditional media (e.g. paper) are insufficient to handle the increasing volume and complexity of knowledge. Computers may offer efficient alternatives for the modelling, management and exploitation of knowledge. Such solutions are known as knowledge bases. In most domains, knowledge is not static and complete but rather evolving and being discovered. Consequently, a knowledge base must be built incrementally over time. Incremental means that we start with a small base, which grows with the acquisition of new knowledge. Many people may need to work together to build the knowledge base. This thesis studies the version management problem in the context of knowledge bases. It offers two main contributions. Firstly, we design and implement a version management system for knowledge bases. By definition, a version is a state of the base at a precise moment. Versions help to maintain a history of changes. They also allow decisions to be reversed and alternative hypotheses to be investigated. Secondly, we contribute to the design of an environment for incremental and concur- rent knowledge base building. We point out how our version system can be integrated into this environment., Dans de nombreux domaines scientifiques ou techniques, la quantité et la complexité croissantes des connaissances manipulées rendent inadéquate l'utilisation de supports classiques tels que le papier. L'informatique peut apporter une réponse en proposant un cadre pour modéliser, gérer et exploiter ces connaissances : on parle alors de bases de connaissances. Pour la plupart des domaines, la connaissance n'est pas statique et immédiatement disponible mais est au contraire en constante évolution au fur et à mesure des découvertes. Dés lors, une base de connaissances est construite de manière incrémentale. Incrémentale veut dire que l'on commence par construire une petite base qui est enrichie petit à petit par l'acquisition de nouvelles connaissances. Cette construction est partagée puisque plusieurs personnes doivent pouvoir travailler simultanément sur cette base afin de la bâtir. Cette thèse aborde la problématique de la gestion des versions pour les bases de connaissances. Ses apports sont de deux ordres. Nous avons tout d'abord conçu et réalisé un système de gestion de versions de bases de connaissances. Par définition, une version reflète un état de l'évolution de la base, c'est-à-dire de l'ensemble des structures et des valeurs des connaissances contenues dans celle-ci (à un moment donné). Les versions aident ainsi à contrôler l'historique des changements effectués au cours de la construction de la base. Elles permettent également un éventuel retour en arrière. Finalement, les versions permettent la formulation de différentes hypothèses de recherche et la gestion de leur évolution parallèle au cours du temps. Nous avons également contribué à la conception de l'environnement de construction incrémentale et partagée de bases de connaissances et montré comment notre système de versions s'intègre au sein de cet environnement.
- Published
- 1995
39. L’intégration des relations sémantiques dans les dictionnaires spécialisés multilingues : du corpus ciblé à l’organisation des connaissances
- Author
-
Jeanne Dancette
- Subjects
Linguistics and Language ,Social Sciences and Humanities ,corpus économique et commercial ,multilingual terminological data management ,base de connaissances ,economic and business corpus ,gestion des données terminologiques multilingues ,Sciences Humaines et Sociales ,knowledge base ,Language and Linguistics ,relations sémantiques ,semantic relations - Abstract
L’implantation d’un grand nombre de relations sémantiques (RS) dans des dictionnaires spécialisés multilingues ouvre une voie nouvelle en terminographie, facilitée par les immenses possibilités de traitement de corpus offertes par les technologies de l’information. Les outils terminologiques favorisant l’organisation des connaissances sont privilégiés par les traducteurs et les apprenants des langues de spécialité. Allant dans cette voie, cet article présente deux projets dictionnairiques exploitant les RS, l’un dans le domaine du commerce de détail et l’autre dans le domaine de la mondialisation économique. Il discute les modèles de RS, les moyens de les implanter dans des dictionnaires en ligne et les contraintes liées au choix des techniques et des logiciels. Les ouvrages présentés illustrent l’idée selon laquelle les classes de relations sémantiques peuvent servir à reproduire la structure conceptuelle d’un domaine. Si certaines classes de relations sont communes à tous les domaines (les relations de générique, spécifique, partie, tout, agent), nombre d’autres sont spécifiques au domaine. L’objectif de cet article est de montrer comment la structure sémantique du dictionnaire peut aider l’utilisateur à organiser ses connaissances et faciliter l’extraction de l’information contenue dans les fiches, en fonction de ses besoins particuliers., The inclusion of a large number of semantic relations (SRs) in specialized multilingual dictionaries, facilitated by leveraging the huge capabilities of information technologies for corpus processing, is a new avenue in terminography. Terminological tools that help users acquire and organize knowledge are appreciated by both translators and language learners in specialized fields. This contribution discusses the integration of complex SRs into two multilingual dictionaries, one in the field of retail sales, and the other in global economy. It describes the SR models used, how to integrate them into online dictionaries, and constraints resulting from the choice of techniques and software. The dictionaries discussed illustrate the idea that classes of SRs can reflect the conceptual structure of a given field. Whereas some classes are canonical and common to all fields (relations of generic, specific, part/whole, agent), many are domain-specific. The aim of this contribution is to show how the dictionary’s semantic structure can help users manage their knowledge and facilitate the retrieval of information according to their own needs.
40. Construction and use of a pharmacogenomic knowledge base for data integration and knowledge discovery
- Author
-
Adrien Coulet, Knowledge representation, reasonning (ORPAILLEUR), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Université Henri Poincaré - Nancy 1, and Marie-Dominique Devignes (marie-dominique.devignes@loria.fr)
- Subjects
pharmacogenomics ,description logics ,knowledge discovery in databases ,sélection de données ,knowledge representation ,logiques de descriptions ,SNP ,représentation des connaissances ,extraction de connaissances à partir de bases de données ,feature selection ,base de connaissances ,intégration de données ,knowledge base ,ontology ,[INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC] ,[SDV.BBM.BC]Life Sciences [q-bio]/Biochemistry, Molecular Biology/Biochemistry [q-bio.BM] ,data integration ,ontologie ,pharmacogénomique - Abstract
This thesis studies the use of ontology and knowledge base for guiding various steps of the Knowledge Discovery in Databases (KDD) process in the domain of pharmacogenomics.Data related to this domain are heterogeneous, complex, and disseminated through several data sources. Consequently, the preliminary step that consists in the preparation and the integration of data is crucial. For guiding this step, an original approach is proposed, based on a knowledge representation of the domain within two ontologies in description logics: SNP-Ontology and SO-Pharm. This approach has been implemented using semantic Web technologies and leads finally to populating a pharmacogenomic knowledge base. As a result, data to analyze are represented in the knowledge base, which is a benefit for guiding following steps of the knowledge discovery process. Firstly, I study this benefit for feature selection by illustrating how the knowledge base can be used for this purpose. Secondly, I describe and apply to pharmacogenomics a new method named Role Assertion Analysis (or RAA) that enables knowledge discovery directly from knowledge bases. This method uses data mining algorithms over assertions of our pharmacogenomic knowledge base and results in the discovery of new and relevant knowledge.; Cette thèse porte sur l'utilisation d'ontologies et de bases de connaissances pour guider différentes étapes du processus d'Extraction de Connaissances à partir de Bases de Données (ECBD) et sur une application en pharmacogénomique. Les données relatives à ce domaine sont hétérogènes, complexes, et distribuées dans diverses bases de données, ce qui rend cruciale l'étape préliminaire de préparation et d'intégration des données à fouiller. Je propose pour guider cette étape une approche originale d'intégration de données qui s'appuie sur une représentation des connaissances du domaine sous forme de deux ontologies en logiques de description : SNP-Ontology et SO-Pharm. Cette approche a été implémentée grâce aux technologies du Web sémantique et conduit au peuplement d'une base de connaissances pharmacogénomique. Le fait que les données à fouiller soient alors disponibles dans une base de connaissances entraîne de nouvelles potentialités pour le processus d'extraction de connaissances. Je me suis d'abord intéressé au problème de la sélection des données les plus pertinentes à fouiller en montrant comment la base de connaissances peut être exploitée dans ce but. Ensuite j'ai décrit et appliqué à la pharmacogénomique, une méthode qui permet l'extraction de connaissances directement à partir d'une base de connaissances. Cette méthode appelée Analyse des Assertions de Rôles (ou AAR) permet d'utiliser des algorithmes de fouille de données sur un ensemble d'assertions de la base de connaissances pharmacogénomique et d'expliciter des connaissances nouvelles et pertinentes qui y étaient enfouies.
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.