Descriptor: "Extraction d'information" / Publication Year Range: Last 50 years - Searchworks@Jio Institute Digital Library Search Results

Your search keyword '"Extraction d'information"' showing total 228 results

Start Over Descriptor "Extraction d'information" Publication Year Range Last 50 years

228 results on '"Extraction d'information"'

1. Annotation d'entités cliniques en utilisant les Larges Modèles de Langue

Author: Meoni, Simon, Ryffel, Théo, De La Clergerie, Eric, Automatic Language Modelling and ANAlysis & Computational Humanities (ALMAnaCH), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Arkhn, Servan, Christophe, and Vilnat, Anne
Subjects: TAL dans le domaine clinique, Modèle de langue Large, Supervision Faible, Extraction d'information, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Abstract: International audience; Dans le domaine clinique et dans d'autres domaines spécialisés, les données sont rares du fait de leur caractère confidentiel. Ce manque de données est un problème majeur lors du fine-tuning de modèles de langue.Par ailleurs, les modèles de langue de très grande taille (LLM) ont des performances prometteuses dans le domaine médical. Néanmoins, ils ne peuvent pas être utilisés directement dans les infrastructures des établissements de santé pour des raisons de confidentialité des données. Nous explorons une approche d'annotation des données d'entraînement avec des LLMs pour entraîner des modèles de moins grandes tailles mieux adaptés à notre problématique. Cette méthode donne des résultats prometteurs pour des tâches d'extraction d'information
Published: 2023

2. CamemBERT-bio : Un modèle de langue français savoureux et meilleur pour la santé

Author: Touchent, Rian, Romary, Laurent, De La Clergerie, Eric, Automatic Language Modelling and ANAlysis & Computational Humanities (ALMAnaCH), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Direction de la Culture et de l’Information Scientifiques (DCIS), Inria Siège, Servan, Christophe, and Vilnat, Anne
Subjects: Comptes rendus médicaux, Reconnaissance d'entités nommées, TAL clinique, CamemBERT, Extraction d'information, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL], Biomédical
Abstract: National audience; Les données cliniques dans les hôpitaux sont de plus en plus accessibles pour la recherche à travers les entrepôts de données de santé, cependant ces documents sont non-structurés. Il est donc nécessaire d'extraire les informations des comptes-rendus médicaux. L'utilisation du transfert d'apprentissage grâce à des modèles de type BERT comme CamemBERT ont permis des avancées majeures, notamment pour la reconnaissance d'entités nommées. Cependant, ces modèles sont entraînés pour le langage courant et sont moins performants sur des données biomédicales. C'est pourquoi nous proposons un nouveau jeu de données biomédical public français sur lequel nous avons poursuivi le pré-entraînement de CamemBERT. Ainsi, nous présentons une première version de CamemBERT-bio, un modèle public spécialisé pour le domaine biomédical français qui montre un gain de 2,54 points de F-mesure en moyenne sur différents jeux d'évaluations de reconnaissance d'entités nommées biomédicales.
Published: 2023

3. Augmentation et génération de données d'apprentissage en traitement automatique des langues

Author: Boulanger, Hugo, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, Sophie Rosset, and Thomas Lavergne
Subjects: Génération de données, Tal, Information extraction, Machine learning, Data generation, Nlp, Apprentissage, Extraction d'information, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Abstract: More and more fields are looking to automate part of their process.Automatic language processing contains methods for extracting information from texts.These methods can use machine learning.Machine learning requires annotated data to perform information extraction.Applying these methods to new domains requires obtaining annotated data related to the task.In this thesis, our goal is to study generation methods to improve the performance of learned models with low amounts of data.Different methods of generation are explored that either contain machine learning or do not, which are used to generate the data needed to learn sequence labeling models.The first method explored is pattern filling.This data generation method generates annotated data by combining sentences with slots, or patterns, with mentions.We have shown that this method improves the performance of labeling models with tiny amounts of data.The amount of data needed to use this method is also studied.The second approach tested is the use of language models for text generation alongside a semi-supervised learning method for tagging.The semi-supervised learning method used is tri-training and is used to add labels to the generated data.The tri-training is tested on several generation methods using different pre-trained language models.We proposed a version of tri-training called generative tri-training, where the generation is not done in advance but during the tri-training process and takes advantage of it.The performance of the models trained during the semi-supervision process and of the models trained on the data generated by it are tested.In most cases, the data produced match the performance of the models trained with the semi-supervision.This method allows the improvement of the performances at all the tested data levels with respect to the models without augmentation.The third avenue of study combines some aspects of the previous approaches.For this purpose, different approaches are tested.The use of language models to do sentence replacement in the manner of the pattern-filling generation method is unsuccessful.Using a set of data coming from the different generation methods is tested, which does not outperform the best method.Finally, applying the pattern-filling method to the data generated with the tri-training is tested and does not improve the results obtained with the tri-training.While much remains to be studied, we have highlighted simple methods, such as pattern filling, and more complex ones, such as the use of supervised learning with sentences generated by a language model, to improve the performance of labeling models through the generation of annotated data.; De plus en plus de domaines cherchent à automatiser une partie de leur processus.Le traitement automatique des langues contient des méthodes permettant d'extraire des informations dans des textes.Ces méthodes peuvent utiliser de l'apprentissage automatique.L'apprentissage automatique nécessite des données annotées pour faire de l'extraction d'information de manière optimale.L'application de ces méthodes à de nouveaux domaines nécessite d'obtenir des données annotées liée à la tâche.Le problème que nous souhaitons résoudre est de proposer et d'étudier des méthodes de génération pour améliorer les performances de modèles appris à basse quantité de données.Nous explorons différentes méthodes avec et sans apprentissage pour générer les données nécessaires à l'apprentissage de modèles d'étiquetage.La première méthode que nous explorons est le remplissage de patrons.Cette méthode de génération de données permet de générer des données annotées en combinant des phrases à trous, les patrons, et des mentions.Nous avons montré que cette méthode permet d'améliorer les performances des modèles d'étiquetage à très petite quantité de données.Nous avons aussi étudié la quantité de données nécessaire pour l'utilisation optimale de cette méthode.La deuxième approche de génération que nous avons testé est l'utilisation de modèles de langue pour la génération couplée à l'utilisation de méthode d'apprentissage semi-supervisé.La méthode d'apprentissage semi-supervisé utilisé est le tri-training et sert à ajouter les étiquettes aux données générées.Le tri-training est testé sur plusieurs méthodes de génération utilisant différents modèles de langue pré-entraînés.Nous avons proposé une version du tri-training appelé tri-training génératif, où la génération n'est pas faite en amont, mais durant le processus de tri-training et profite de celui-ci.Nous avons testé les performances des modèles entraînés durant le processus de semi-supervision et des modèles entraîné sur les données produites par celui-ci.Dans la majeure partie des cas, les données produites permettent d'égaler les performances des modèles entraînés avec la semi-supervision.Cette méthode permet l'amélioration des performances à tous les niveaux de données testés vis-à-vis des modèles sans augmentation.La troisième piste d'étude vise à combiner certains aspects des approches précédentes.Pour cela, nous avons testé différentes approches.L'utilisation de modèles de langues pour faire du remplacement de bouts de phrase à la manière de la méthode de remplissage de patrons fut infructueuse.Nous avons testé l'addition de données générées par différentes méthodes qui ne permet pas de surpasser la meilleure des méthodes.Enfin, nous avons testé l'application de la méthode de remplissage de patrons sur les données générées avec le tri-training qui n'a pas amélioré les résultats obtenu avec le tri-training.S'il reste encore beaucoup à étudier, nous avons cependant mis en évidence des méthodes simples, comme le remplissage de patrons, et plus complexe, comme l'utilisation d'apprentissage supervisé avec des phrases générées par un modèle de langue, permettant d'améliorer les performances de modèles d'étiquetage grâce à la génération de données annotées.
Published: 2023

4. Extraction of UML class diagrams from natural language specifications

Author: Yang, Song and Sahraoui, Houari
Subjects: Software engineering, Information extraction, Natural language processing, Machine learning, Génie logiciel, Model-driven engineering, Ingénierie dirigée par modèle, Extraction d'information, UML
Abstract: Dans l’ingénierie dirigée par modèle, les diagrammes de classes UML servent à la planification et à la communication entre les différents acteurs d’un projet logiciel. Dans ce mémoire, nous proposons une méthode automatique pour l’extraction des diagrammes de classes UML à partir de spécifications en langues naturelles. Pour développer notre méthode, nous créons un dépôt de diagrammes de classes UML et de leurs spécifications en anglais fournies par des bénévoles. Notre processus d’extraction se fait en plusieurs étapes: la segmentation des spécifications en phrases, la classification de ces phrases, la génération des fragments de diagrammes de classes UML à partir de chaque phrase, et la composition de ces fragments en un diagramme de classes UML. Nous avons validé notre approche d’extraction en utilisant le dépôt de paires diagramme-spécification. Même si les résultats obtenus montrent une précision et un rappel bas, notre travail a permis d’identifier les éléments qui peuvent être améliorés pour une meilleure extraction., In model-driven engineering, UML class diagrams serve as a way to plan and communicate between developers. In this thesis, we propose an automated approach for the extraction of UML class diagrams from natural language software specifications. To develop our approach, we create a dataset of UML class diagrams and their English specifications with the help of volunteers. Our approach is a pipeline of steps consisting of the segmentation of the input into sentences, the classification of the sentences, the generation of UML class diagram fragments from sentences, and the composition of these fragments into one UML class diagram. We develop a quantitative testing framework specific to UML class diagram extraction. Our approach yields low precision and recall but serves as a benchmark for future research.
Published: 2023

5. Contributions to information extraction in a hospital data warehouse : an aid for clinical research

Author: Cossin, Sébastien, Bordeaux population health (BPH), Université de Bordeaux (UB)-Institut de Santé Publique, d'Épidémiologie et de Développement (ISPED)-Institut National de la Santé et de la Recherche Médicale (INSERM), Université de Bordeaux, Vianney Jouhet, Gayo Diallo, and STAR, ABES
Subjects: [SDV.MHEP] Life Sciences [q-bio]/Human health and pathology, Information extraction, Data visualization, Electronic health record, Natural language processing, Traitement automatique de la langue, Datavisualisation, Machine learning, Information Retrieval, Dossier patient informatisé, Recherche d'information, Extraction d'information, [SDV.MHEP]Life Sciences [q-bio]/Human health and pathology
Abstract: The development of digital technologies has led to the digitization of medical information and the transformation of paper records into electronic health records (EHRs). The data generated in a hospital contains valuable information for medical research. Hospitals have set up clinical data warehouses (CDW) to facilitate the secondary use of the data. In a CDW, researchers need to identify eligible patients for a clinical study and return to an EHR to complete the electronic case report form of a study. The main difficulty is the unstructured nature of the free text medical information. Natural language processing methods are needed to structure the data to facilitate its interrogation and retrieval. The objective of this thesis was to develop tools and methods to help researchers conduct feasibility studies and find information in an EHR. The main contributions of this thesis are the following: A French drug terminology. Many studies are looking at the use, efficacy, and tolerance of medicines in daily life. Medicines can also help to identify some diseases. The lack of a standardized drug terminology has led to the construction of Romedi, a French drug terminology, which offers good performance in detecting and identifying drugs in hospital data. A scalable semantic annotator. Semantic annotation consists of linking sequences of words in a document to concepts of a terminology. It enables the detection and indexing of medical concepts. How to index millions of documents in a CDW with medical terminologies containing several hundred thousand terms? In this work, we propose a new algorithm, IAMsystem, which is scalable to the size of a data warehouse and whose complexity depends little on the size of a terminology. An inventory of French medical abbreviations. Abbreviations are widely used in medicine. They add complexity to natural language processing tasks and must be taken into account by a semantic annotator. This work presents two algorithms to automatically detect abbreviations from a corpus of medical documents and offers the first inventory of abbreviations extracted from French hospital data. Linking hospital records to death certificates. The vital status of individuals is of central importance for many epidemiological studies and feasibility studies need to know whether eligible patients are alive or dead. Large volumes of data require a strategy to reduce the number of comparisons. We show that a vector space model offers excellent results in reducing the number of comparisons and that it is possible to automatically generate a gold standard from hospital data for linking hospital data and death certificates by machine learning. A web application to support the review of EHRs An interface, SmartCRF, has been developed to quickly search for information in an EHR. It comprises a lifeline, a search engine, a document viewer, and a recommendation system. Compared to the hospital software, it reduces the time spent on checking the inclusion and exclusion criteria of a feasibility study and facilitates the completion of an electronic case report., Le développement des technologies numériques a conduit à la numérisation des informations médicales et à la dématérialisation des dossiers papiers en dossiers patients informatisés (DPI). Les données générées dans un hôpital contiennent des informations précieuses pour la recherche médicale. Les hôpitaux ont mis en place des entrepôts de données (EDS) pour faciliter l’utilisation secondaire des données. Dans un EDS, les chercheurs ont besoin d’identifier les patients éligibles à une étude clinique et de retourner au DPI pour remplir le cahier d’observation électronique d’une étude. La principale difficulté réside dans le caractère non structuré des informations médicales présentes sous forme de texte libre. Des méthodes de traitement automatique de la langue sont nécessaires pour structurer les données afin de faciliter leur interrogation et leur extraction. L’objectif de cette thèse était de développer des outils et des méthodes pour aider les chercheurs à mener des études de faisabilité et à trouver des informations dans un DPI. Les principales contributions de cette thèse sont les suivantes: une terminologie sur les médicaments en langue française. De nombreuses études s’intéressent à l’utilisation, l’efficacité et à la tolérance des médicaments en vie réelle. Les médicaments permettent aussi d’identifier certaines maladies. L’absence d’une terminologie normalisée du médicament a conduit à la construction de Romedi, référentiel ouvert du médicament, qui offre de bonnes performances pour détecter et identifier les médicaments dans les données hospitalières. Un annotateur sémantique scalable à un entrepôt de données. L’annotation sémantique consiste à relier des séquences de mots d’un document aux concepts d’une terminologie. Elle permet la détection et l’indexation de concepts médicaux. Comment indexer des millions de documents d’un EDS avec des terminologies médicales contenant plusieurs centaines de milliers de termes ? Dans ce travail, nous proposons un nouvel algorithme, IAMsystem, scalable à l’échelle d’un entrepôt de données et dont la complexité dépend peu de la taille d’une terminologie. Un inventaire de sens des abréviations médicales. Les abréviations sont largement utilisées en médecine. Elles ajoutent de la complexité aux tâches de traitement automatique de la langue et doivent être prises en compte par un annotateur sémantique. Ce travail présente deux algorithmes pour détecter automatiquement des abréviations à partir d’un corpus de documents médicaux et propose le premier inventaire d’abréviations issu de données hospitalières en langue française. Une stratégie d’appariements de données hospitalières avec les certificats de décès Le statut vital des individus est d’une importance capitale pour de nombreuses études épidémiologiques et les études de faisabilité ont besoin de connaître si les patients éligibles sont vivants ou décédés. Les grands volumes de données nécessitent de recourir à un stratagème pour diminuer le nombre de comparaisons. Nous montrons qu’un modèle d’espace vectoriel offre d’excellents résultats pour diminuer le nombre de comparaisons et qu’il est possible de générer automatiquement un gold standard à partir de données hospitalières pour apparier données hospitalières et certificats de décès par apprentissage automatique. Une interface pour la revue des DPI. Une interface, SmartCRF, a été développée pour rechercher rapidement des informations dans un DPI. Elle est constituée d’une ligne de vie, d’un moteur de recherche, d’une visionneuse de documents et d’un système de recommandation. Par rapport au logiciel métier, elle permet de diminuer le temps passé à vérifier les critères d’inclusion et d’exclusion d’une étude de faisabilité et elle facilite le remplissage d’un cahier d’observation électronique.
Published: 2022

6. Connaissances géospatiales dans les annonces immobilières : détection et extraction d’information spatiale à partir du texte

Author: Cadorel, Lucie, Blanchi, Alicia, Tettamanzi, Andrea G. B., Web-Instrumented Man-Machine Interactions, Communities and Semantics (WIMMICS), Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Scalable and Pervasive softwARe and Knowledge Systems (Laboratoire I3S - SPARKS), Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), Université Nice Sophia Antipolis (1965 - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (1965 - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA), K-City Labs - Kinaxia Group, Expertise et spatialisation des connaissances en environnement (ESPACE), Institut de Recherche pour le Développement (IRD), AfIA, Fatiha Saïs, and ANR-19-P3IA-0002,3IA@cote d'azur,3IA Côte d'Azur(2019)
Subjects: geographical knowledge, Information extraction, connaissance géographique, named entity recognition, extraction de relation, reconnaissance d’entités nommées, Extraction d’information, relationship extraction, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]
Abstract: International audience; We proposed a workflow to extract geospatial knowledge from text applied to Real Estate advertisements. We first extracted geographic and spatial entities using a model based on a BiLSTM-CRF architecture with a concatenation of se-veral text representations. Secondly, we performed relations extraction, particularly spatial relations extraction, to build a structured Geospatial knowledge base that we stored in a RDF Knowledge Graph.; Nous avons proposé un modèle d’extraction de connaissances géospatiales à parir du texte appliqué au cas des annonces immobilières. La première étape consiste à extraire les entités géographiques et spatiales à l’aide d’un modèlebasé sur une architecture BiLSTM-CRF et la concaténation de plusieurs embeddings. Ensuite, nous avons réalisé l’extraction de relations, notamment spatiales, pour créer une base de connaissance géospatiale structurée stockéedans un graphe de connaissance RDF.
Published: 2022

7. Stratégies d'adaptation pour la reconnaissance d'entités médicales en français

Author: Le Clercq de Lannoy, Tiphaine, Besançon, Romaric, Ferret, Olivier, Tourille, Julien, Brin-Henry, Frédérique, Vieru, Bianca, Département Intelligence Ambiante et Systèmes Interactifs (DIASI), Laboratoire d'Intégration des Systèmes et des Technologies (LIST (CEA)), Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay, Analyse et Traitement Informatique de la Langue Française (ATILF), Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Ces travaux ont bénéficié d’un financement dans le cadre du programme e-Meuse Santé, porté par leDépartement de la Meuse et soutenu par les Départements de la Haute-Marne et de la Meurthe etMoselle, les GIP Objectif Meuse et Haute-Marne, la Région Grand Est, l’Agence Régionale de SantéGrand Est, et la Banque des Territoires au titre du programme France 2030., Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, and Travaux réalisés grâce au supercalculateur Factory-IA financé par le Conseil Régional d’Ile-de-France.
Subjects: BERT, Reconnaissance d’entités nommées, UMLS, Extraction d’information, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Abstract: National audience; In a context where few annotated corpora for medical entity extraction are available, we study in this paper a hybrid approach combining the use of specialized knowledge and language model adaptation ; furthermore, we study the effect of pretraining a general language model (CamemBERT) with different biomedical corpora. The methods are tested on the QUAERO corpus. We show that, even with a small corpus, pretrain a model with a specialized corpus can improve the results. The combination of several approaches allows to gain one to seven points on the F1-score depending on the test corpus and the method.; Dans un contexte où peu de corpus annotés pour l’extraction d’entités médicales sont disponibles, nous étudions dans cet article une approche hybride combinant utilisation de connaissances spécialisées et adaptation de modèles de langues en mettant l’accent sur l’effet du pré-entraînement d’un modèle de langue généraliste (CamemBERT) sur différents corpus. Les résultats sont obtenus sur le corpus QUAERO. Nous montrons que pré-entraîner un modèle avec un corpus spécialisé, même de taille réduite, permet d’observer une amélioration des résultats. La combinaison de plusieurs approches permet de gagner un à sept points de F1-mesure selon le corpus de test et la méthode.
Published: 2022

8. Morphology-based Entity and Relational Entity Extraction Framework for Arabic.

Author: Jaber, Amin and Zaraket, Fadi A.
Subjects: NATURAL languages, DATA mining, COMPUTATIONAL linguistics
Abstract: Copyright of Traitement Automatique des Langues is the property of Association pour le Traitement Automatique des Langues (ATALA) and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
Published: 2017

9. Information Extraction and Visualization from Twitter Considering Spatial Structure.

Author: Hideyuki Fujita
Subjects: *DATA mining, *DATA visualization, *SOCIAL media, *ACQUISITION of data
Abstract: Mobile social media represented by Twitter are expected to be a suitable source of data for analyzing human behaviour and statuses of locations. It seems that we can provide location-based information simply by spatially filtering archived data. However, there are several problems in terms of practical use. This research considers in particular problems that concern the relationship between data meaning and their spatial structures. With regard to Twitter, in general, the location from which a tweet is posted is attached to a geotagged tweet. For example, the location coordinates attached to the geotagged tweet "Heavy rain in Miura Peninsula" by NHK (Japan's public broadcaster) are not those of the Miura Peninsula, but of Shibuya in Tokyo (where NHK is located). Therefore, the tweet is not found by a spatial search around the Miura Peninsula or even Kanagawa Prefecture (where the Miura Peninsula is located). To resolve such problems, we propose a framework that distinguishes locations of interest and locations of activity. We propose a method for automatically classifying such locations and develop a data collection, classification, and visualization system based on this method. [ABSTRACT FROM AUTHOR]
Published: 2017
Full Text: View/download PDF

10. Représentation, extraction d'informations et syntèse pour la compréhension automatique du multimédia

Author: Harrando, Ismail and STAR, ABES
Subjects: Synthèse du contenu multimédia, Multimedia summarization, Information extraction, Traitement de langage naturel, Multimodal learning, Natural language processing, Représentation sémantique des multimédias, Semantic multimedia representation, Apprentissage multimodal, Extraction d’information, Multimedia understanding, Compréhension du contenu multimédia, [INFO.INFO-IA] Computer Science [cs]/Computer Aided Engineering
Abstract: Whether on TV or on the internet, video content production is seeing an unprecedented rise. Not only is video the dominant medium for entertainment purposes, but it is also reckoned to be the future of education, information and leisure. Nevertheless, the traditional paradigm for multimedia management proves to be incapable of keeping pace with the scale brought about by the sheer volume of content created every day across the disparate distribution channels. Thus, routine tasks like archiving, editing, content organization and retrieval by multimedia creators become prohibitively costly. On the user side, too, the amount of multimedia content pumped daily can be simply overwhelming; the need for shorter and more personalized content has never been more pronounced. To advance the state of the art on both fronts, a certain level of multimedia understanding has to be achieved by our computers. In this research thesis, we aim to go about the multiple challenges facing automatic media content processing and analysis, mainly gearing our exploration to three axes: 1. Representing multimedia: With all its richness and variety, modeling and representing multimedia content can be a challenge in itself. 2. Describing multimedia: The textual component of multimedia can be capitalized on to generate high-level descriptors, or annotations, for the content at hand. 3. Summarizing multimedia: we investigate the possibility of extracting highlights from media content, both for narrative-focused summarization and for maximising memorability., Que ce soit à la télévision ou sur internet, la production de contenu vidéo connaît un essor sans précédent. La vidéo est devenu non seulement le support dominant pour le divertissement, mais elle est également considérée comme l'avenir de l'éducation, l'information et le loisir. Néanmoins, le paradigme traditionnel de la gestion du multimédia s'avère incapable de suivre le rythme imposé par l'ampleur du volume de contenu créé chaque jour sur les différents canaux de distribution. Ainsi, les tâches de routine telles que l'archivage, l'édition, l'organisation et la recherche de contenu par les créateurs multimédias deviennent d'un coût prohibitif. Du côté de l'utilisateur, la quantité de contenu multimédia distribuée quotidiennement peut être écrasante ; le besoin d'un contenu plus court et plus personnalisé n'a jamais été aussi prononcé. Pour faire progresser l'état de l'art sur ces deux fronts, un certain niveau de compréhension du multimédia doit être atteint par nos ordinateurs. Dans cette thèse, nous proposons d'aborder les multiples défis auxquels sont confrontés le traitement et l'analyse automatique de contenu multimédia, en orientant notre exploration autour de trois axes : 1. la représentation: avec toute sa richesse et sa variété, la modélisation et la représentation du contenu multimédia peut être un défi en soi. 2. la description: La composante textuelle du multimédia peut être exploitée pour générer des descripteurs de haut niveau (annotation) pour le contenu en question. 3. le résumé: où nous étudions la possibilité d'extraire les moments d'intérêt de ce contenu, à la fois pour un résumé centré sur la narration et pour maximiser la mémorabilité.
Published: 2022

11. Simulation d’erreurs d’OCR dans les systèmes de TAL pour le traitement de données anachroniques

Author: Baptiste Blouin, Benoit Favre, Jeremy Auguste, Parmentier, Yannick, Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, Laboratoire d'Informatique et Systèmes (LIS), and Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)
Subjects: Données historiques, OCR, Extraction d’information, [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL], Transformers, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Abstract: National audience; L’extraction d’information offre de nouvelles perspectives au sein des recherches historiques. Cependant, la majorité des recherches liées à ce domaine s’effectue sur des données contemporaines. Malgré l’évolution constante des systèmes d’OCR, les textes historiques résultant de ce procédé contiennent toujours de multiples erreurs. Du fait d’un manque de ressources historiques dédiées au TAL, le traitement de ce domaine reste dépendant de l’utilisation de ressources contemporaines. De nombreuses études ont démontré l’impact négatif que pouvaient avoir les erreurs d’OCR sur les systèmes prêts à l’emploi contemporains. Mais l’évaluation des nouvelles architectures, proposant des résultats prometteurs sur des données récentes, face à ce problème reste encore très minime. Dans cette étude, nous quantifions l’impact des erreurs d’OCR sur trois tâches d’extraction d’information en utilisant plusieurs architectures de type Transformers. Au vu de ces résultats, nous proposons une approche permettant de réduire de plus de 50% cet impact sans avoir recours à des ressources historiques spécialisées.
Published: 2022

12. Automatic retrieval of definitional statements with Unitex to help enrich terminological resources : experience feedback

Author: Fener, Patricia, Dahdouh, Claude, Institut de l'information scientifique et technique (INIST), Centre National de la Recherche Scientifique (CNRS), and Fener, Patricia
Subjects: Unitex, experimental study, définition, énoncé définitoire, étude expérimentale, TAL, definitional statement, traitement automatique des langues, patron lexico-syntaxique, [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR], graphe syntaxique, definition, [INFO.INFO-IR] Computer Science [cs]/Information Retrieval [cs.IR], information extraction, extraction d’information, natural language processing, biomedical domain, domaine biomédical
Abstract: This study is located in the framework of information extraction surrounding knowledge engineering and its purpose is to propose an experiment aimed at the analysis, the identification and the extraction of definitional statements in scientific texts from the biomedical field. The methodology implemented is based on a symbolic approach with the creation of lexico-syntactic patterns combined with the use of electronic dictionaries and local grammars enabled by use of the Unitex text processing tool. Although the reusability and adaptability of syntactic graphs are major assets in the process of finding definitional statements, their performance seems to strongly depend on the domain to which they are applied and this thwarts the goal of genericity that we were aiming at. Further more in-depth studies will be useful to improve these first results., Se situant dans le cadre de l‘extraction d‘information, la présente étude a pour but de proposer une expérimentation visant le repérage, l’analyse et l’extraction des énoncés définitoires dans les textes scientifiques.La méthodologie mise en œuvre repose sur une approche symbolique avec la création de patrons lexico-syntaxiques à partir d’énoncés définitoires du domaine biomédical, combinée à l’utilisation de dictionnaires électroniques et de grammaires locales permise par l’outil de traitement textuel Unitex. La portabilité et l’adaptabilité des graphes syntaxiques sont des atouts majeurs. Or cette étude montre que leur bon fonctionnement est fortement sous-tendu par le domaine sur lequel ils sont appliqués, ce qui vient contrecarrer l’objectif de généricité que l’on s’était fixé.D’autres études plus approfondies seront nécessaires pour améliorer ces premiers résultats.
Published: 2021

13. Construction d’une mémoire des sites pollués : Fusion de bases de données et extraction d’événements

Author: Dong, Chuanming, Laboratoire d'Informatique Gaspard-Monge (LIGM), École des Ponts ParisTech (ENPC)-Centre National de la Recherche Scientifique (CNRS)-Université Gustave Eiffel, Agence de l'Environnement et de la Maîtrise de l'Energie (ADEME), Laboratoire sciences et technologies de l'information géographique (LaSTIG), Ecole des Ingénieurs de la Ville de Paris (EIVP)-École nationale des sciences géographiques (ENSG), Institut National de l'Information Géographique et Forestière [IGN] (IGN)-Université Gustave Eiffel-Institut National de l'Information Géographique et Forestière [IGN] (IGN)-Université Gustave Eiffel, and Dong, Chuanming
Subjects: [INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI], [INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB], [INFO.INFO-TT] Computer Science [cs]/Document and Text Processing, Traitement Automatique de la langue naturelle, Pollution, [SDE.ES]Environmental Sciences/Environmental and Society, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL], [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing, Base de données, [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL], [INFO.INFO-DB] Computer Science [cs]/Databases [cs.DB], Extraction d'Information, [SDE.ES] Environmental Sciences/Environmental and Society, ComputingMilieux_MISCELLANEOUS
Abstract: International audience
Published: 2021

14. Atténuer les erreurs de numérisation dans la reconnaissance d'entités nommées pour les documents historiques

Author: Boros, Emanuela, Hamdi, Ahmed, Elvys Linhares Pontes, Cabrera-Diego, Luis Adrián, Moreno, Jose G., Sidère, Nicolas, Doucet, Antoine, Laboratoire Informatique, Image et Interaction - EA 2118 (L3I), Université de La Rochelle (ULR), Recherche d’Information et Synthèse d’Information (IRIT-IRIS), Institut de recherche en informatique de Toulouse (IRIT), Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées, Programme de recherche et d’innovation Horizon2020 de l’Union européenne au titre des subventions 770299 (NewsEye) et 825153 (Embeddia), and ARIA : Association Francophone de Recherche d’Information (RI) et Applications
Subjects: Historical data, Information extraction, données multi-lingues, Multilingual data, reconnaissance d’entités nommées, Extraction d’information, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL], [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], Named entity recognition, [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR], [INFO.INFO-DL]Computer Science [cs]/Digital Libraries [cs.DL], [INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC], données historiques
Abstract: National audience; This paper tackles the task of NER applied to historical texts obtained from processing digital images of news papers using OCR techniques. The main challenge for this task is that the OCR process leads to misspellings and linguistic errors in the output text, which can impact the performance of the NER. We conduct a comparative evaluation on two historical datasets in German and French against previous state-of-the-art models, and we propose a model based ona hierarchical stack of Transformers to approach the NER task for historical data. Our findings show that the proposed model clearly improves the results on both historical data sets; Cet article aborde la reconnaissance d’entités nommées (NER) appliquée aux textes historiques obtenus à partir du traitement d’images numériques de journaux à l’aide de tech-niques de reconnaissance optique de caractères (OCR). Nous soutenons que le principal défi pour cette tâche est que le processus OCR produit des textes contenant entre autres des fautes d’orthographe et des erreurs de syntaxes. De plus, des variations sémantiques peuvent être présentes dans les documents anciens, ce qui a un impact sur les performances de la reconnaissance d’entités nommées. Nous menons une évaluation comparative à l’état de l’art de deux ensembles de données historiques en allemand et en français, et nous proposons un modèle basé sur une pile hiérarchique de couches Transformer pour aborder la reconnaissance d’entités nommées dans des données historiques. Nos résultats montrent que le modèle proposé améliore clairement les résultats sur les deux ensembles de données
Published: 2021

15. Apprentissage profond pour l’extraction de l’information des documents commerciaux

Author: Sage, Clément, STAR, ABES, Laboratoire d'InfoRmatique en Image et Systèmes d'information (LIRIS), Institut National des Sciences Appliquées de Lyon (INSA Lyon), Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Centre National de la Recherche Scientifique (CNRS)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-École Centrale de Lyon (ECL), Université de Lyon-Université Lumière - Lyon 2 (UL2), Université de Lyon, Alexandre Aussem, Véronique Eglin, and Haytham Elghazel
Subjects: Document Analysis, Apprentissage profond, Deep Learning, [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], Business Documents, Approches neuronales, Analyse de documents, Neural network approaches, Information Extraction, Documents commerciaux, Extraction d'information, [STAT.ML] Statistics [stat]/Machine Learning [stat.ML]
Abstract: Due to the massive and increasing amount of documents received each day and the number of steps to process them, the largest companies have turned to document automation software for reaching low processing costs. One crucial step of such software is the automatic extraction of information from the documents, particularly retrieving fields that repeatedly appear in the incoming documents. To deal with the variability of structure of the information contained in such documents, the industrial and academic practitioners have progressively moved from rule-based methods to machine and deep learning models for performing the extraction task. The goal of this thesis is to provide methods for learning to extract information from business documents. In the first part of this manuscript, we embrace the sequence labeling approach by training deep neural networks to classify the information type carried by each token in the documents. When provided perfect token labels for learning, we show that these token classifiers can extract complex tabular information from document issuers and layouts that were unknown at the model training time. However, when the token level supervision must be deduced from the high-level ground truth naturally produced by the extraction task, we demonstrate that the token classifiers extract information from real-world documents with a significantly lower accuracy due to the noise introduced in the labels. In the second part of this thesis, we explore methods that learn to extract information directly from the high-level ground truth at our disposal, thus bypassing the need for costly token level supervision. We adapt an attention-based sequence-to-sequence model in order to alternately copy the document tokens carrying relevant information and generate the XML tags structuring the output extraction schema. Unlike the prior works in end-to-end information extraction, our approach allows to retrieve any arbitrarily structured information schemas. By comparing its extraction performance with the previous token classifiers, we show that end-to-end methods are competitive with sequence labeling approaches and can greatly outperform them when their token labels are not immediately accessible. Finally, in a third part, we confirm that using pre-trained models to extract information greatly reduces the needs for annotated documents. We leverage an existing Transformer based language model which has been pre-trained on a large collection of business documents. When adapted for an information extraction task through sequence labeling, the language model requires very few training documents for attaining close to maximal extraction performance. This underlines that the pre-trained models are significantly more data-efficient than models learning the extraction task from scratch. We also reveal valuable knowledge transfer abilities of this language model since the few-shot performance is improved when learning beforehand to extract information on another dataset, even if its targeted fields differ from the initial task., En raison de la quantité massive et croissante de documents reçus chaque jour et du nombre d'étapes pour les traiter, les plus grandes entreprises se sont tournées vers des logiciels d'automatisation des processus documentaires afin d'atteindre de faibles coûts de traitement. Une étape cruciale d'un tel logiciel est l'extraction de l'information des documents, en particulier la récupération des champs qui apparaissent régulièrement dans les documents entrants. Pour faire face à la variabilité de la structure de l'information contenue dans ces documents, les systèmes industriels et académiques sont progressivement passés de méthodes basées sur des règles à des modèles d'apprentissage profond pour effectuer la tâche d'extraction. L'objectif de cette thèse est d'apporter des méthodes pour apprendre à extraire l'information des documents commerciaux. Dans la première partie de ce manuscrit, nous adoptons l'approche d'étiquetage de séquence en entraînant des réseaux de neurones profonds à classer le type d'information porté par chaque token des documents. Lorsque les étiquettes des tokens utilisées pour l'apprentissage sont parfaites, nous montrons que ces classificateurs de tokens peuvent extraire des champs tabulaires complexes de documents dont l'émetteur et la mise en page étaient inconnues au moment de l'apprentissage du modèle. Cependant, lorsque la supervision au niveau du token doit être déduite de la vérité terrain de haut niveau naturellement produite par la tâche d'extraction, nous démontrons que les classificateurs de tokens extraient l'information de documents du monde réel avec une précision nettement inférieure en raison du bruit introduit dans les étiquettes. Dans la deuxième partie de cette thèse, nous explorons des méthodes qui apprennent à extraire de l'information directement à partir de la vérité terrain de haut niveau à notre disposition, évitant ainsi une supervision au niveau des tokens coûteuse. Nous adaptons un modèle séquence à séquence basé sur un mécanisme d'attention afin de copier les tokens du document portant de l'information pertinente et de générer les balises XML structurant le schéma d'extraction en sortie. Contrairement aux travaux antérieurs en extraction d'information de bout en bout, notre approche permet de retrouver n'importe quel schéma d'information, quelle que soit sa structure. En comparant ses performances d'extraction avec les classificateurs de tokens précédemment étudiés, nous montrons que les méthodes de bout en bout sont compétitives avec les approches d'étiquetage de séquence et peuvent largement les surpasser lorsque les étiquettes des tokens ne sont pas immédiatement accessibles. Enfin, dans une troisième partie, nous confirmons qu'utiliser des modèles pré-entraînés pour extraire de l'information réduit considérablement les besoins en documents annotés. Nous exploitons un modèle de langage existant basé sur l'architecture Transformer qui a été pré-entraîné sur une large collection de documents commerciaux. Lorsqu'il est adapté à une tâche d'extraction d'information via l'approche d'étiquetage de séquence, le modèle de langage nécessite très peu de documents d'entraînement pour atteindre des performances d'extraction proches du maximum. Cela souligne que les modèles pré-entraînés sont significativement plus efficients en matière de données que les modèles apprenant la tâche d'extraction à partir de zéro. Nous révélons également de précieuses capacités de transfert de connaissances pour ce modèle de langage puisque les performances sont améliorées en apprenant au préalable à extraire de l'information sur un autre jeu de données, même si ses champs ciblés diffèrent de la tâche initiale.
Published: 2021

16. Intérêt des modèles de caractères pour la détection d'événements

Author: Emanuela Boros, Romaric Besançon, Olivier Ferret, Brigitte Grau, Université de La Rochelle (ULR), Laboratoire d'Intégration des Systèmes et des Technologies (LIST), Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA), LIMSI, CNRS, ENSIIE, Université Paris-Saclay, Denis, Pascal, Grabar, Natalia, Fraisse, Amel, Cardon, Rémi, Jacquemin, Bernard, Kergosien, Eric, Balvet, Antonio, La Rochelle Université (ULR), Laboratoire d'Intégration des Systèmes et des Technologies (LIST (CEA)), Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), and Parmentier, Yannick
Subjects: [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL], plongements lexicaux, Extraction d’information, événements, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Abstract: French: Cet article aborde la tâche de détection d’événements, visant à identifier et catégoriser les mentions d’événements dans les textes. Une des difficultés de cette tâche est le problème des mentions d’événements correspondant à des mots mal orthographiés, très spécifiques ou hors vocabulaire. Pour analyser l’impact de leur prise en compte par le biais de modèles de caractères, nous proposons d’intégrer des plongements de caractères, qui peuvent capturer des informations morphologiques et de forme sur les mots, à un modèle convolutif pour la détection d’événements. Plus précisément, nous évaluons deux stratégies pour réaliser une telle intégration et montrons qu’une approche de fusion tardive surpasse à la fois une approche de fusion précoce et des modèles intégrant des informations sur les caractères ou les sous-mots tels que ELMo ou BERT. English: This paper tackles the task of event detection that aims at identifying and categorizing event mentions in texts. One of the difficulties of this task is the problem of event mentions corresponding to misspelled, custom, or out-of-vocabulary words. To analyze the impact of character-level features, we propose to integrate character embeddings, which can capture morphological and shape information about words, to a convolutional model for event detection. More precisely, we evaluate two strategies for performing such integration and show that a late fusion approach outperforms both an early fusion approach and models integrating character or subword information such as ELMo or BERT.
Published: 2021

17. Classification de cas cliniques et évaluation automatique de réponses d’étudiants : présentation de la campagne DEFT 2021

Author: Grouin, Cyril, Grabar, Natalia, Illouz, Gabriel, Information, Langue Ecrite et Signée (ILES), Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Sciences et Technologies des Langues (STL), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Savoirs, Textes, Langage (STL) - UMR 8163 (STL), Université de Lille-Centre National de la Recherche Scientifique (CNRS), Denis, Pascal, Grabar, Natalia, Fraisse, Amel, Cardon, Rémi, Jacquemin, Bernard, Kergosien, Eric, Balvet, Antonio, CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Sciences et Technologies des Langues (STL), and CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)
Subjects: cas cliniques, Extraction d’information, réponses courtes d’étudiants, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Abstract: International audience; Le défi fouille de textes (DEFT) est une campagne d’évaluation annuelle francophone. Nous présentons les corpus et baselines élaborées pour trois tâches : (i) identifier le profil clinique de patients décrits dans des cas cliniques, (ii) évaluer automatiquement les réponses d’étudiants sur des questionnaires en ligne (Moodle) à partir de la correction de l’enseignant, et (iii) poursuivre une évaluation de réponses d’étudiants à partir de réponses déjà évaluées par l’enseignant. Les résultats varient de 0,394 à 0,814 de F-mesure sur la première tâche (7 équipes), de 0,448 à 0,682 de précision sur la deuxième (3 équipes), et de 0,133 à 0,510 de précision sur la dernière (3 équipes).
Published: 2021

18. Outil Interactif et Évolutif pour l’Extraction d’Information dans des Documents Techniques

Author: Belkacem, Thiziri, Teissèdre, Charles, Parmentier, Yannick, Denis, Pascal, Grabar, Natalia, Fraisse, Amel, Cardon, Rémi, Jacquemin, Bernard, Kergosien, Eric, Balvet, Antonio, Service de médecine interne et gérontologie clinique, and CHU Toulouse [Toulouse]-Casselardit - Ancely
Subjects: Extraction d’Information, [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL], Document Technique, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL], Modèle Évolutif
Abstract: International audience; L’accès à l’information dans la documentation technique est une application particulière et complexe du traitement du langage naturel et de la recherche d’information. La difficulté tient aux contraintes propres des langages métier spécialisés et semi-contrôlés. Dans ce document, nous proposons un outil d’accès à l’information dans différents types de documents. Notre solution exploite conjointement la structure organisationnelle des documents et leur contenu informationnel, pour extraire des informations métier dans des différents corpus. Nous proposons un système basé sur des interactions expert-machine dans un cycle d’amélioration continu des modèles d’extraction. Notre approche exploite des modèles d’apprentissage à faible supervision ne nécessitant pas d’expertise en ingénierie des langues. Notre système intègre l’utilisateur dans le processus de qualification de l’information et permet de guider son apprentissage, afin de rendre ses modèles plus performants au fil du temps.
Published: 2021

19. Combinaison de mesures lexicales et sémantiques pour l'extraction de données expérimentales dans des articles scientifiques

Author: Lentschat, Martin, Buche, Patrice, Dibie-Barthélemy, Juliette, Roche, Mathieu, and Dibie, Juliette
Subjects: U10 - Informatique, mathématiques et statistiques, Analyse de données, [INFO] Computer Science [cs], Fouille de textes, Extraction d'information, fouille de données, Perméabilité des emballages, C30 - Documentation et information, Q80 - Conditionnement, Conditionnement des aliments, ComputingMilieux_MISCELLANEOUS, Traitement des données
Abstract: Cet article présente une méthode pour représenter et mesurer la pertinence de données expérimentales extraites d’articles scientifiques. Dans le domaine étudié, les emballages alimentaires, le nombre de documents est réduit et ceux-ci contiennent un vocabulaire spécifique. Nous utilisons une Ressource Termino-ontologique (RTO) pour guider l’extraction, les approches par apprentissage n’étant pas adaptées à la taille du corpus. La RTO définit les entités d’intérêt et les décrits à travers un vocabulaire. Les informations recherchées sont liées aux relations de perméabilité et sont de deux types : symboliques (i.e. une expression lexicale) et quantitatives (i.e. une valeur numérique et son unité de mesure).Les documents contiennent un grand nombre de faux-positifs dû à la présence d’informations n’étant pas liées à la perméabilité des emballages (par exemple, un nom d’emballage cité à titre de comparaison ou une température autre que le paramètre de contrôle de la mesure de perméabilité). Dans ce contexte, nous proposons ici une méthode complète et originale qui intègre une représentation multi-descripteurs des entités extraites permettant de calculer et combiner des scores de pertinence.
Published: 2021

20. Open Information Extraction: Approche Supervisée et Syntaxique pour le Français

Author: Atmani, Massinissa, Lafourcade, Mathieu, LIRMM, Denis, Pascal, Grabar, Natalia, Fraisse, Amel, Cardon, Rémi, Jacquemin, Bernard, Kergosien, Eric, and Balvet, Antonio
Subjects: Extraction d’information, Apprentissage machine, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL], Syntaxe
Abstract: International audience; L’ Open Information Extraction, est un paradigme d’extraction conçu pour gérer l’adaptation de domaine, la principale difficulté des approches traditionnelles pour l’extraction d’informations. Cependant, la plupart des approches se concentrent sur l’anglais. Ainsi, nous proposons une approche supervisée pour l’OpenIE pour le français, nous développons également un corpus d’entraînement et un référentiel d’évaluation. Nous proposons un nouveau modèle basé en deux étapes pour l’étiquetage de séquence, qui identifie d’abord tous les arguments de la relation avant de les étiqueter. Les expérimentations montrent non seulement que l’approche que nous proposons obtient les meilleurs résultats, mais aussi que l’état de l’art actuel n’est pas assez robuste pour s’adapter à un domaine différent du domaine du corpus d’entraînement.
Published: 2021

21. MEANS: une approche sémantique pour la recherche de réponses aux questions médicales.

Author: Ben Abacha, Asma and Zweigenbaum, Pierre
Abstract: Copyright of Traitement Automatique des Langues is the property of Association pour le Traitement Automatique des Langues (ATALA) and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
Published: 2014

22. Fouille d'arguments à partir des essais cliniques

Author: Mayer, Tobias, Web-Instrumented Man-Machine Interactions, Communities and Semantics (WIMMICS), Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Scalable and Pervasive softwARe and Knowledge Systems (Laboratoire I3S - SPARKS), Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015 - 2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015 - 2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015 - 2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015 - 2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), COMUE Université Côte d'Azur (2015 - 2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015 - 2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA), Université Côte d’Azur, Serena Villata, and Céline Poudat
Subjects: [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing, traitement automatique du langage naturel, Argument Mining, extraction d’information, Information Extraction, Natural Language Processing
Abstract: In the latest years, the healthcare domain has seen an increasing interest in the definition of intelligent systems to support clinicians in their everyday tasks and activities. Among others, this includes novel systems for the field of Evidence-based Medicine. The latter relies on the principle of critically appraising medical evidence and combining high quality evidence with the individual clinical experience of the practitioner with respect to the circumstances of a patient to achieve the best possible outcome. Hence, most of the proposed intelligent systems aim either at extracting information concerning the quality of evidence from clinical trials, clinical guidelines, or electronic health records, or assist in the decision making processes, based on reasoning frameworks. The work in this thesis goes beyond the state-of-the-art of currently proposed information extraction systems. It employs Argument Mining methods to extract and classify argumentative components (i.e., evidence and claims of a clinical trial) and their relations (i.e., support, attack). An Argument Mining pipeline is proposed and further enhanced to integrate additional information inspired by prevalent biomedical frameworks for the analysis of clinical trials. These extensions comprise the detection of PICO elements and an outcome analysis module to identify and classify the effects (i.e., improved, increased, decreased, no difference, no occurrence) of an intervention on the outcome of the trial. In this context, a dataset, composed of 660 Randomized Controlled Trial abstracts from the MEDLINE database, was annotated, leading to a labeled dataset with 4198 argument components, 2601 argument relations, and 3351 outcomes on five different diseases (i.e., neoplasm, glaucoma, hepatitis, diabetes, hypertension). Various Machine Learning approaches ranging from feature-based SVMs to recent neural architectures have been experimented with, where deep bidirectional transformers obtain a macro F1-score of .87 for argument component detection and .68 for argument relation prediction, outperforming current state-of-the-art Argument Mining systems. Additionally, a Proof-of-Concept system, called ACTA, was developed to demonstrate the practical use of the developed argument-based approach to analyse clinical trials. This demo system was further integrated in the context of the Covid-on-the-Web project to create rich and actionable Linked Data about the Covid-19.; Ces dernières années, le domaine de la e-santé a vu un intérêt croissant pour la définition de systèmes intelligents ayant le but d’accompagner les cliniciens dans leurs tâches et leurs activités quotidiennes. D’ailleurs, cela inclut de nouveaux systèmes pour le domaine de la médecine basée sur les preuves. Ce dernier repose sur le principe de l’évaluation critique des preuves médicales et de la combinaison de ces preuves de haute qualité avec l’expérience clinique individuelle du praticien par rapport à la situation d’un patient pour obtenir le meilleur résultat possible. La plupart des systèmes intelligents proposés visent soit à extraire des informations sur la qualité des preuves issues des essais cliniques, de directives cliniques ou des dossiers de santé électroniques, soit à aider dans les processus de prise de décision, sur la base de cadres de raisonnement. Le travail de cette thèse va au-delà de l’état de l’art des systèmes d’extraction d’informations actuellement proposés dans ce contexte. Il utilise des méthodes d’analyse d’arguments pour extraire et classifier les composants d’argumentation (c’est-à-dire les preuves et les conclusions d’un essai clinique) et leurs relations (c’est-à-dire le support et l’attaque). Un cadre de fouille d’arguments (Argument Mining) est proposé et amélioré pour intégrer des informations supplémentaires inspirées par les cadres biomédicaux courants pour l’analyse des essais cliniques. Ces extensions comprennent la détection des éléments PICO et un module d’analyse des résultats pour identifier et classer les effets (c’est- à-dire améliorés, augmentés, diminués, pas de différence, pas d’occurrence) d’une intervention sur le résultat de l’essai. Dans ce contexte, un jeu de données, composé de 660 résumés d’essais cliniques dans la base de données MEDLINE, a été annoté, en résultant dans le construction d’un jeu de données étiquetées qui inclut 4198 composants d’argumentation, 2601 relations d’argumentation et 3351 résultats d’intervention sur cinq maladies différentes (néoplasme, glaucome, hépatite, dia- bète, hypertension). Diverses approches d’apprentissage automatique et profond allant des SVM aux architectures récentes basées sur les réseaux de neurones ont été expérimentées, obtenant un F1 macro de 0,87 pour la détection de composants d’argumentation et de 0,68 pour la prédiction des relation d’argumentation, surpassant les résultats obtenus pas les systèmes de detection d’arguments dans l’état de l’art. De plus, une demo d’un système, appelé ACTA, a été développée pour démontrer l’utilisation pratique de l’approche basée sur les arguments développée pour analyser les essais cliniques. Ce système de démonstration a été intégré dans le contexte du projet Covid-on-the-Web pour créer des données liées riches et exploitables sur le Covid-19.
Published: 2020

23. Harvesting commonsense and hidden knowledge from web services

Author: Romero, Julien, Laboratoire Traitement et Communication de l'Information (LTCI), Institut Mines-Télécom [Paris] (IMT)-Télécom Paris, Institut Polytechnique de Paris, Fabian Suchanek, and Nicoleta Preda
Subjects: [INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB], Commonsense, Base de donnée, Base de connaissance, Sens commun, Extraction d'information, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], Knowledge base, Database, [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR], Service web, Query rewritings, Réécriture de requête, Information Extraction, Web services
Abstract: In this thesis, we harvest knowledge of two different types from online resources . The first one is commonsense knowledge, i.e. intuitive knowledge shared by most people like ``the sky is blue''. We extract salient statements from query logs and question-answering by carefully designing question patterns. Next, we validate our statements by querying other web sources such as Wikipedia, Google Books, or image tags from Flickr. We aggregate these signals to create a final score for each statement. We obtain a knowledge base, QUASIMODO, which, compared to its competitors, has better precision and captures more salient facts.The other kind of knowledge we investigate is hidden knowledge, i.e. knowledge not directly given by a data provider. More concretely, some Web services allow accessing the data only through predefined access functions. To answer a user query, we have to combine different such access functions, i.e., we have to rewrite the query in terms of the functions. We study two different scenarios: In the first scenario, the access functions have the shape of a path, the knowledge base respects constraints called ``Unary Inclusion Dependencies'', and the query is atomic. We show that the problem is decidable in polynomial time, and we provide an algorithm with theoretical evidence. In the second scenario, we remove the constraints and create a new class of relevant plans called "smart plans". We show that it is decidable to find these plans and we provide an algorithm.; In this thesis, we harvest knowledge of two different types from online resources . The first one is commonsense knowledge, i.e. intuitive knowledge shared by most people like ``the sky is blue''. We extract salient statements from query logs and question-answering by carefully designing question patterns. Next, we validate our statements by querying other web sources such as Wikipedia, Google Books, or image tags from Flickr. We aggregate these signals to create a final score for each statement. We obtain a knowledge base, QUASIMODO, which, compared to its competitors, has better precision and captures more salient facts.Dans cette thèse, nous collectons sur le web deux types de connaissances. Le premier porte sur le sens commun, i.e. des connaissances intuitives partagées par la plupart des gens comme ``le ciel est bleu''. Nous utilisons des logs de requêtes et des forums de questions-réponses pour extraire des faits essentiels grâce à des questions avec une forme particulière. Ensuite, nous validons nos affirmations grâce à d'autres ressources comme Wikipedia, Google Books ou les tags d'images sur Flickr. Finalement, nous groupons tous les signaux pour donner un score à chaque fait. Nous obtenons une base de connaissance, QUASIMODO, qui, comparée à ses concurrents, montre une plus grande précision et collecte plus de faits essentiels.Le deuxième type de connaissances qui nous intéresse sont les connaissances cachées, i.e. qui ne sont pas directement données par un fournisseur de données. En effet, les services web donnent généralement un accès partiel à l'information. Il faut donc combiner des méthodes d'accès pour obtenir plus de connaissances: c'est de la réécriture de requête. Dans un premier scénario, nous étudions le cas où les fonctions ont la forme d'un chemin, la base de donnée est contrainte par des "dépendences d'inclusion unitaires" et les requêtes sont atomiques. Nous montrons que le problème est alors décidable en temps polynomial. Ensuite, nous retirons toutes les contraites et nous créons un nouvelle catégorie pertinente de plans: les "smart plans". Nous montrons qu'il est décidable de les trouver.
Published: 2020

24. Collecte de connaissances cachées et du sens commun à partir de services web

Author: Romero, Julien, Laboratoire Traitement et Communication de l'Information (LTCI), Institut Mines-Télécom [Paris] (IMT)-Télécom Paris, Institut Polytechnique de Paris, Fabian Suchanek, and Nicoleta Preda
Subjects: [INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB], Commonsense, Base de donnée, Base de connaissance, Sens commun, Extraction d'information, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], Knowledge base, Database, [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR], Service web, Query rewritings, Réécriture de requête, Information Extraction, Web services
Abstract: In this thesis, we harvest knowledge of two different types from online resources . The first one is commonsense knowledge, i.e. intuitive knowledge shared by most people like ``the sky is blue''. We extract salient statements from query logs and question-answering by carefully designing question patterns. Next, we validate our statements by querying other web sources such as Wikipedia, Google Books, or image tags from Flickr. We aggregate these signals to create a final score for each statement. We obtain a knowledge base, QUASIMODO, which, compared to its competitors, has better precision and captures more salient facts.The other kind of knowledge we investigate is hidden knowledge, i.e. knowledge not directly given by a data provider. More concretely, some Web services allow accessing the data only through predefined access functions. To answer a user query, we have to combine different such access functions, i.e., we have to rewrite the query in terms of the functions. We study two different scenarios: In the first scenario, the access functions have the shape of a path, the knowledge base respects constraints called ``Unary Inclusion Dependencies'', and the query is atomic. We show that the problem is decidable in polynomial time, and we provide an algorithm with theoretical evidence. In the second scenario, we remove the constraints and create a new class of relevant plans called "smart plans". We show that it is decidable to find these plans and we provide an algorithm.; In this thesis, we harvest knowledge of two different types from online resources . The first one is commonsense knowledge, i.e. intuitive knowledge shared by most people like ``the sky is blue''. We extract salient statements from query logs and question-answering by carefully designing question patterns. Next, we validate our statements by querying other web sources such as Wikipedia, Google Books, or image tags from Flickr. We aggregate these signals to create a final score for each statement. We obtain a knowledge base, QUASIMODO, which, compared to its competitors, has better precision and captures more salient facts.Dans cette thèse, nous collectons sur le web deux types de connaissances. Le premier porte sur le sens commun, i.e. des connaissances intuitives partagées par la plupart des gens comme ``le ciel est bleu''. Nous utilisons des logs de requêtes et des forums de questions-réponses pour extraire des faits essentiels grâce à des questions avec une forme particulière. Ensuite, nous validons nos affirmations grâce à d'autres ressources comme Wikipedia, Google Books ou les tags d'images sur Flickr. Finalement, nous groupons tous les signaux pour donner un score à chaque fait. Nous obtenons une base de connaissance, QUASIMODO, qui, comparée à ses concurrents, montre une plus grande précision et collecte plus de faits essentiels.Le deuxième type de connaissances qui nous intéresse sont les connaissances cachées, i.e. qui ne sont pas directement données par un fournisseur de données. En effet, les services web donnent généralement un accès partiel à l'information. Il faut donc combiner des méthodes d'accès pour obtenir plus de connaissances: c'est de la réécriture de requête. Dans un premier scénario, nous étudions le cas où les fonctions ont la forme d'un chemin, la base de donnée est contrainte par des "dépendences d'inclusion unitaires" et les requêtes sont atomiques. Nous montrons que le problème est alors décidable en temps polynomial. Ensuite, nous retirons toutes les contraites et nous créons un nouvelle catégorie pertinente de plans: les "smart plans". Nous montrons qu'il est décidable de les trouver.
Published: 2020

25. Extraction d'évènements au sein d'une plateforme de veille

Author: Antoine, Capucine, Université Grenoble Alpes - UFR Langage, lettres et arts du spectacle, information et communication - Dpt Sciences du langage et français langue étrangère (UGA UFR LLASIC SLFLE), Université Grenoble Alpes (UGA), Bertin IT, 10 bis avenue Ampère, 78180 Montigny, and Thomas Lebarbé
Subjects: Text Mining, Market Intelligence, Web Intelligence, Veille sur internet, Extraction d’information, Event Extraction, Information Extraction, Fouille de textes, Extraction d’évènements, [SHS]Humanities and Social Sciences
Abstract: Event extraction is an application of Natural Language Processing (NLP), more precisely of text mining, consisting in extracting structured information about events present in texts in an unstructured way. During the course of this internship, we worked on the development of the model version of an event extraction tool. This tool is based on a pattern-matching method. We mainly worked with the ACE (Automatic Content Extraction) corpus, from the evaluation conference of the same name. This internship and the developement of this model are part of enhancing AMI Enterprise Intelligence (AMI EI), the business intelligence solution developed and maintained by Bertin IT within its research center in Montpellier. The main contributions of this project are :— state of the art on event extraction ;— review of several Open Source tools ;— development of a model version of an event extraction tool.; L’extraction d’évènements est une application du Traitement Automatique des Langues (TAL), et plus précisément une application de fouille de textes, qui consiste à extraire de manière structurée des informations sur des évènements présents de manière non-structurée dans des textes. Lors de ce stage, nous avons travaillé à l’élaboration d’une maquette d’un outil d’extraction d’évènements qui repose sur une méthode de reconnaissance de motifs. Nous avons principalement travaillé avec le corpus ACE (Automatic Content Extraction) issu de la campagne d’évaluation du même nom. Ce stage s’inscrit dans le cadre de l’enrichissement continue des fonctionnalités d’AMI Enterprise Intelligence, la solution de veille stratégique développée et maintenue dans le centre R&D de la société Bertin IT à Montpellier. Les principales contributions de ce mémoire sont :— état de l’art sur l’extraction d’évènements ;— étude de plusieurs outils d’extraction d’évènements disponibles en OpenSource ;— développement d’une maquette d’un outil d’extraction d’évènements.
Published: 2020

26. Détection des effets indésirables des médicaments dans les notes cliniques

Author: Florez Suarez, Edson Alejandro, Scalable and Pervasive softwARe and Knowledge Systems (Laboratoire I3S - SPARKS), Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA), Université Côte d'Azur, and Michel Riveill
Subjects: Deep Learning, Clinical Notes, [INFO.INFO-DS]Computer Science [cs]/Data Structures and Algorithms [cs.DS], Extraction d'Information, Information Extraction, Adverse Drug Reaction, Texte médicaux, Adverse Drug Event
Abstract: The Information Extraction from clinical notes provides relevant information to identify adverse side effects in post-marketing surveillance of medications (Pharmacovigilance), which is more difficult to discover by traditional medical studies since patients are taking several treatments at the same time. In recent years, data mining techniques have allowed to discover knowledge stored in big datasets, such as the clinical records collected by hospitals throughout patient's life. The goal of this work is identify adverse side effects caused by treatments. Then, we have to identify relations between medications and Adverse Drug Events (ADE) entities, which is called Adverse Drug Reaction relation. This problem is divided Named Entity Recognition (NER) and Relation Extraction tasks. Nowadays, supervised approaches based on Deep Learning and Machine Learning algorithms solve this problem in the state of the art. These supervised systems require rich features in order to learn efficient models during training, therefore, we focus on building comprehensive word representations (the input of the neural network), using character-based word representations and word representations. The proposed representation improves the performance of the baseline model, and the final model reached the performances of state of the art methods. Then we have extracted contextual information through Deep Learning models and other different features obtained from the relations, in order to identify the Adverse Drug Reaction relations. The proposed model improved the overall accuracy and the extraction of Adverse Drug Reaction compared to the baseline, indicating the effectiveness of combining Deep Learning models and extensive feature engineering.; L'extraction d'information de textes médicaux fournit des renseignements très utiles pour identifier les effets indésirables dans la surveillance après consommation (Pharmacovigilance), qui sont plus difficiles à découvrir à travers des études médicales typiques puisque les patients prennent plusieurs traitements en même temps. Récemment, les techniques de Data Mining ont permis de découvrir les connaissances enregistrées dans de grands ensembles de données, comme les dossiers cliniques collectés par les hôpitaux tout au long de la vie du patient. L'objectif de cette thèse est d'identifier les effets indésirables causés par les traitements. Pour cela, nous devons extraire les relations entre les médicaments et Adverses Drug Events (ADE), qui est la relation de réaction indésirable des médicaments. Ce problème est divisé en tâches de reconnaissance d'entités nommées (NER) et d'extraction de relations. Aujourd'hui, les approches supervisées basées sur des algorithmes de Deep Learning et Machine Learning résolvent ce problème dans l'état de l'art. Les méthodes supervisées ont besoin de caractéristiques riches afin d'apprendre des modèles efficaces au cours de la formation, par conséquent, nous nous concentrons sur la construction de représentations de mots larges (l'entrée du réseau neuronal), nous utilisons des représentations de mots basées sur des caractères et des représentations de niveau de mots. La représentation proposée améliore la performance du modèle de référence et le modèle final a atteint les performances des méthodes de pointe. Ensuite, nous avons extrait des informations contextuelles à travers des modèles de Deep Learning, afin d'identifier les réactions indésirables aux médicaments. Le modèle proposé a amélioré la précision globale et l'extraction des réactions indésirables aux médicaments obtenu avec le modèle de base, ce qui indique l'efficacité de combiner des modèles de Deep Learning et une vaste ingénierie des caractéristiques.
Published: 2020

27. Présentation de la campagne d'évaluation DEFT 2020 : similarité textuelle en domaine ouvert et extraction d'information précise dans des cas cliniques

Author: Cardon, Rémi, Grabar, Natalia, Grouin, Cyril, Hamon, Thierry, Savoirs, Textes, Langage (STL) - UMR 8163 (STL), Université de Lille-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Université Paris 13 (UP13), ANR-17-CE19-0016,CLEAR,Communication, Literacy, Education, Accessibility, Readability(2017), and Université Sorbonne Paris Nord
Subjects: Cas cliniques, extraction d'information, Textual Similarity Atelier DÉfi Fouille de Textes, [INFO]Computer Science [cs], similarité textuelle Clinical Cases, Information Extraction, [SHS]Humanities and Social Sciences
Abstract: International audience; L'édition 2020 du défi fouille de texte (DEFT) a proposé deux tâches autour de la similarité textuelle et une tâche d'extraction d'information. La première tâche vise à identifier le degré de similarité entre paires de phrases sur une échelle de 0 (le moins similaire) à 5 (le plus similaire). Les résultats varient de 0,65 à 0,82 d'EDRM. La deuxième tâche consiste à déterminer la phrase la plus proche d'une phrase source parmi trois phrases cibles fournies, avec des résultats très élevés, variant de 0,94 à 0,99 de précision. Ces deux tâches reposent sur un corpus du domaine général et de santé. La troisième tâche propose d'extraire dix catégories d'informations du domaine médical depuis le corpus de cas cliniques de DEFT 2019. Les résultats varient de 0,07 à 0,66 de F-mesure globale pour la sous-tâche des pathologies et signes ou symptômes, et de 0,14 à 0,76 pour la sous-tâche sur huit catégories médicales. Les méthodes utilisées reposent sur des CRF et des réseaux de neurones.
Published: 2020

28. Conception d'un système de détection d'intention pour un moteur de recherche sur Internet

Author: Maudet, Estelle, Servan, Christophe, QWANT RESEARCH (QR), Projet PIA - ANSWER - FSN2 (P159564-2661789\DOS0060094), Benzitoun, Christophe, Braud, Chloé, Huber, Laurine, Langlois, David, Ouni, Slim, Pogodalla, Sylvain, Schneider, Stéphane, and Qwant Research
Subjects: Recherche industrielle, humain-dans-la-boucle, extraction d’information, Classification, Détection d’intention, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Abstract: Dans les moteurs de recherche sur Internet, l’une des tâches les plus importantes vise à identifier l’intention de l’utilisateur. Cet article présente notre étude pour proposer un nouveau système de détection d’intention pour le moteur de recherche sur Internet Qwant. Des logs de clic au système de détection d’intention, l’ensemble du processus est expliqué, y compris les contraintes industrielles qui ont dû être prises en compte. Une analyse manuelle des données groupées a d’abord été appliquée sur les journaux afin de mieux comprendre les objectifs de l’utilisateur et de choisir les catégories d’intention pertinentes. Lorsque la recherche satisfait aux contraintes industrielles, il faut faire des choix architecturaux et faire des concessions. Cet article explique les contraintes et les résultats obtenus pour ce nouveau système en ligne.
Published: 2020

29. Alignement de bases de données pour l'extraction d'informations concernant les sols pollués

Author: Dong, Chuanming, Laboratoire d'Informatique Gaspard-Monge (LIGM), École des Ponts ParisTech (ENPC)-Centre National de la Recherche Scientifique (CNRS)-Université Gustave Eiffel, Agence de l'Environnement et de la Maîtrise de l'Energie (ADEME), Laboratoire sciences et technologies de l'information géographique (LaSTIG), Ecole des Ingénieurs de la Ville de Paris (EIVP)-École nationale des sciences géographiques (ENSG), Institut National de l'Information Géographique et Forestière [IGN] (IGN)-Université Gustave Eiffel-Institut National de l'Information Géographique et Forestière [IGN] (IGN)-Université Gustave Eiffel, and Dong, Chuanming
Subjects: [INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI], [INFO.INFO-DB]Computer Science [cs]/Databases [cs.DB], Pollution des sols, [INFO.INFO-TT] Computer Science [cs]/Document and Text Processing, [SDE.ES]Environmental Sciences/Environmental and Society, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL], [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing, Base de données, [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL], [INFO.INFO-DB] Computer Science [cs]/Databases [cs.DB], Extraction d'Information, [SDE.ES] Environmental Sciences/Environmental and Society, ComputingMilieux_MISCELLANEOUS
Abstract: International audience
Published: 2020

30. Méthodes D'Analyse Sémantique De Corpus De Décisions Jurisprudentielles

Author: Tagny Ngompe, Gildas, Laboratoire de Génie Informatique et d'Ingénierie de Production (LGI2P), IMT - MINES ALES (IMT - MINES ALES), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), IMT - MINES ALES - IMT - Mines Alès Ecole Mines - Télécom, Stéphane Mussard, and Jacky Montmain
Subjects: Information extraction, Décisions jurisprudentielles, Textual data analysis, Text classification, [INFO.INFO-OH]Computer Science [cs]/Other [cs.OH], Case law decisions, Document clustering, Extraction d’information, Classification de textes, Regroupement non-Supervisé, Analyse de données textuelles
Abstract: A case law is a corpus of judicial decisions representing the way in which laws are interpreted to resolve a dispute. It is essential for lawyers who analyze it to understand and anticipate the decision-making of judges. Its exhaustive analysis is difficult manually because of its immense volume and the unstructured nature of the documents. The estimation of the judicial risk by individuals is thus impossible because they are also confronted with the complexity of the judicial system and language. The automation of decision analysis enable an exhaustive extraction of relevant knowledge for structuring case law for descriptive and predictive analyses. In order to make the comprehension of a case law exhaustive and more accessible, this thesis deals with the automation of some important tasks for the expert analysis of court decisions. First, we study the application of probabilistic sequence labeling models for the detection of the sections that structure court decisions, legal entities, and legal rules citations. Then, the identification of the demands of the parties is studied. The proposed approach for the recognition of the requested and granted quanta exploits the proximity between sums of money and automatically learned key-phrases. We also show that the meaning of the judges' result is identifiable either from predefined keywords or by a classification of decisions. Finally, for a given category of demands, the situations or factual circumstances in which those demands are made, are discovered by clustering the decisions. For this purpose, a method of learning a similarity distance is proposed and compared with established distances. This thesis discusses the experimental results obtained on manually annotated real data. Finally, the thesis proposes a demonstration of applications to the descriptive analysis of a large corpus of French court decisions.; Une jurisprudence est un corpus de décisions judiciaires représentant la manière dont sont interprétées les lois pour résoudre un contentieux. Elle est indispensable pour les juristes qui l'analysent pour comprendre et anticiper la prise de décision des juges. Son analyse exhaustive est difficile manuellement du fait de son immense volume et de la nature non-structurée des documents. L'estimation du risque judiciaire par des particuliers est ainsi impossible car ils sont en outre confrontés à la complexité du système et du langage judiciaire. L'automatisation de l'analyse des décisions permet de retrouver exhaustivement des connaissances pertinentes pour structurer la jurisprudence à des fins d'analyses descriptives et prédictives. Afin de rendre la compréhension d'une jurisprudence exhaustive et plus accessible, cette thèse aborde l'automatisation de tâches importantes pour l'analyse métier des décisions judiciaires. En premier, est étudiée l'application de modèles probabilistes d'étiquetage de séquences pour la détection des sections qui structurent les décisions de justice, d'entités juridiques, et de citations de lois. Ensuite, l'identification des demandes des parties est étudiée. L'approche proposée pour la reconnaissance des quanta demandés et accordés exploite la proximité entre les sommes d'argent et des termes-clés appris automatiquement. Nous montrons par ailleurs que le sens du résultat des juges est identifiable soit à partir de termes-clés prédéfinis soit par une classification des décisions. Enfin, pour une catégorie donnée de demandes, les situations ou circonstances factuelles où sont formulées ces demandes sont découvertes par regroupement non supervisé des décisions. A cet effet, une méthode d'apprentissage d'une distance de similarité est proposée et comparée à des distances établies. Cette thèse discute des résultats expérimentaux obtenus sur des données réelles annotées manuellement. Le mémoire propose pour finir une démonstration d'applications à l'analyse descriptive d'un grand corpus de décisions judiciaires françaises.
Published: 2020

31. Methods of Semantic Analysis of Corpora of Case Law Decisions

Author: Tagny Ngompe, Gildas, Laboratoire de Génie Informatique et d'Ingénierie de Production (LGI2P), IMT - MINES ALES (IMT - MINES ALES), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), IMT - MINES ALES - IMT - Mines Alès Ecole Mines - Télécom, Stéphane Mussard, Jacky Montmain, and STAR, ABES
Subjects: [INFO.INFO-OH] Computer Science [cs]/Other [cs.OH], Information extraction, Décisions jurisprudentielles, Textual data analysis, Text classification, [INFO.INFO-OH]Computer Science [cs]/Other [cs.OH], Case law decisions, Document clustering, Extraction d’information, Classification de textes, Regroupement non-Supervisé, Analyse de données textuelles
Abstract: A case law is a corpus of judicial decisions representing the way in which laws are interpreted to resolve a dispute. It is essential for lawyers who analyze it to understand and anticipate the decision-making of judges. Its exhaustive analysis is difficult manually because of its immense volume and the unstructured nature of the documents. The estimation of the judicial risk by individuals is thus impossible because they are also confronted with the complexity of the judicial system and language. The automation of decision analysis enable an exhaustive extraction of relevant knowledge for structuring case law for descriptive and predictive analyses. In order to make the comprehension of a case law exhaustive and more accessible, this thesis deals with the automation of some important tasks for the expert analysis of court decisions. First, we study the application of probabilistic sequence labeling models for the detection of the sections that structure court decisions, legal entities, and legal rules citations. Then, the identification of the demands of the parties is studied. The proposed approach for the recognition of the requested and granted quanta exploits the proximity between sums of money and automatically learned key-phrases. We also show that the meaning of the judges' result is identifiable either from predefined keywords or by a classification of decisions. Finally, for a given category of demands, the situations or factual circumstances in which those demands are made, are discovered by clustering the decisions. For this purpose, a method of learning a similarity distance is proposed and compared with established distances. This thesis discusses the experimental results obtained on manually annotated real data. Finally, the thesis proposes a demonstration of applications to the descriptive analysis of a large corpus of French court decisions., Une jurisprudence est un corpus de décisions judiciaires représentant la manière dont sont interprétées les lois pour résoudre un contentieux. Elle est indispensable pour les juristes qui l'analysent pour comprendre et anticiper la prise de décision des juges. Son analyse exhaustive est difficile manuellement du fait de son immense volume et de la nature non-structurée des documents. L'estimation du risque judiciaire par des particuliers est ainsi impossible car ils sont en outre confrontés à la complexité du système et du langage judiciaire. L'automatisation de l'analyse des décisions permet de retrouver exhaustivement des connaissances pertinentes pour structurer la jurisprudence à des fins d'analyses descriptives et prédictives. Afin de rendre la compréhension d'une jurisprudence exhaustive et plus accessible, cette thèse aborde l'automatisation de tâches importantes pour l'analyse métier des décisions judiciaires. En premier, est étudiée l'application de modèles probabilistes d'étiquetage de séquences pour la détection des sections qui structurent les décisions de justice, d'entités juridiques, et de citations de lois. Ensuite, l'identification des demandes des parties est étudiée. L'approche proposée pour la reconnaissance des quanta demandés et accordés exploite la proximité entre les sommes d'argent et des termes-clés appris automatiquement. Nous montrons par ailleurs que le sens du résultat des juges est identifiable soit à partir de termes-clés prédéfinis soit par une classification des décisions. Enfin, pour une catégorie donnée de demandes, les situations ou circonstances factuelles où sont formulées ces demandes sont découvertes par regroupement non supervisé des décisions. A cet effet, une méthode d'apprentissage d'une distance de similarité est proposée et comparée à des distances établies. Cette thèse discute des résultats expérimentaux obtenus sur des données réelles annotées manuellement. Le mémoire propose pour finir une démonstration d'applications à l'analyse descriptive d'un grand corpus de décisions judiciaires françaises.
Published: 2020

32. Leveraging cross-sentential context for supervised event extraction

Author: Kodelja Bonan, Dorian, Laboratoire d'Intégration des Systèmes et des Technologies (LIST), Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA), Université Paris-Saclay, Olivier Ferret, STAR, ABES, and Laboratoire d'Intégration des Systèmes et des Technologies (LIST (CEA))
Subjects: [INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI], Information extraction, [INFO.INFO-NE] Computer Science [cs]/Neural and Evolutionary Computing [cs.NE], [INFO.INFO-TT] Computer Science [cs]/Document and Text Processing, [INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG], Apprentissage automatique, [INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE], Traitement automatique des langues, [STAT.ML] Statistics [stat]/Machine Learning [stat.ML], Extraction d'information, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing, [STAT.ML]Statistics [stat]/Machine Learning [stat.ML], [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], Machine learning, Natural Language Processing
Abstract: The extraction of structured information from a document is one of the main parts of natural language processing (NLP). This extraction usually consists in three steps: named entities recognition relation extraction and event extraction. This last step is considered to be the most challenging. The notion of event covers a broad list of different phenomena which are characterized through a varying number of roles. Thereupon, Event extraction consists in detecting the occurrence of an event then determining its argument, that is, the different entities filling specific roles. These two steps are usually done one after the other. In this case, the first step revolves around detecting triggers indicating the occurrence of events.The current best approaches, based on neural networks, focus on the direct neighborhood of the target word in the sentence. Information in the rest of the document is then usually ignored. This thesis presents different approaches aiming at exploiting this document-level context.We begin by reproducing a state of the art convolutional neural network and analyze some of its parameters. We then present an experiment showing that, despite its good performances, our model only exploit a narrow context at the intra-sentential level.Subsequently, we present two methods to generate and integrate a representation of the inter-sentential context in a neural network operating on an intra-sentential context.The first contribution consists in producing a task-specific representation of the inter-sentential context through the aggregation of the predictions of a first intra-sentential model. This representation is then integrated in a second model, allowing it to use the document level distribution of event to improve its performances. We also show that this task-specific representation is better than an existing generic representation of the inter-sentential context.Our second contribution, in response to the limitations of the first one, allows for the dynamic generation of a specific context for each target word. This method yields the best performances for a single model on multiples datasets.Finally, we take a different tack on the exploitation of the inter-sentential context. We try a more direct modelisation of the dependencies between multiple event instances inside a document in order to produce a joint prediction. To do so, we use the PSL (Probabilistic Soft Logic) framework which allows to model such dependencies through logic formula., Un des principaux pans du traitement automatique des langues (TAL) est l'extraction sous forme structurée des informations contenues dans un document. Cette extraction est généralement constituée de trois étapes : l'extraction d'entités nommées, des relations les liant au sein du texte et enfin celle des événements. Cette étape est communément considérée comme la plus difficile de la chaîne d'extraction. La notion d'événement recouvre différents phénomènes caractérisés par un nombre variable d'actants. L'extraction d'événements consiste alors à identifier la présence d'un événement puis à en déterminer les arguments, c'est-à-dire les différentes entités y remplissant des rôles spécifiques. Ces deux étapes sont généralement traitées successivement et la première étape repose alors sur la détection d'un déclencheur indiquant la présence d'un événement.Les meilleures approches actuelles, reposant sur différents modèles neuronaux, se focalisent sur le voisinage direct du mot dans la phrase. Les informations présentes dans le reste du document sont alors généralement ignorées. Cette thèse présente donc différentes approches visant à exploiter ce contexte distant au sein du document.Nous reproduisons en premier lieu un modèle convolutif obtenant des performances à l'état de l'art et en analysons plusieurs paramètres. Nous réalisons ensuite une expérience permettant d'illustrer le fait que ce modèle, malgré ses bonnes performances, n'exploite effectivement qu'un contexte très restreint au niveau phrastique.Dans un deuxième temps, nous présentons deux méthodes de production et d'intégration d'une représentation du contexte distant à un modèle neuronal opérant au niveau intra-phrastique.La première contribution se fonde sur un mécanisme d'amorçage en produisant une représentation du document spécifique à la tâche par agrégation des prédictions d'un premier modèle intra-phrastique puis en l'intégrant à un nouveau modèle intra-phrastique afin de lui permettre de tenir compte de la distribution globale des événements dans le document. Nous montrons par ailleurs la supériorité de cette approche sur une représentation générique du document.Une seconde contribution, répondant aux limitations de la première méthode, permet d'exploiter dynamiquement, pour chaque cible de prédiction, une représentation des phrases les plus pertinentes au sein du contexte grâce à un modèle de convolution de graphe. Cette méthode permet d'obtenir les meilleures performances pour un modèle simple sur différents jeux de données.Enfin, dans un troisième temps, nous considérons une autre approche de la prise en compte du contexte inter-phrastique. Nous cherchons à modéliser plus directement les interdépendances entre les différentes instances d'événements au sein d'un document afin de réaliser une prédiction jointe. Nous utilisons pour cela le cadre d'apprentissage PSL (Probabilistic Soft Logic) qui permet de modéliser de telles interdépendances sous forme de règles logiques.
Published: 2020

33. Textual aspects of judicial proceedings files and perspectives for its automatic processing

Author: Gianola, Lucie, Gianola, Lucie, Laboratoire AGORA (AGORA), Université de Cergy Pontoise (UCP), Université Paris-Seine-Université Paris-Seine, Université de Cergy-Pontoise, and Julien Longhi
Subjects: Corpus linguistics, Information extraction, Natural language processing, [INFO.INFO-TT] Computer Science [cs]/Document and Text Processing, Criminal analysis, Analyse criminelle, [SHS.LANGUE] Humanities and Social Sciences/Linguistics, Extraction d'information, Genre textuel, [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing, Textual genre, [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR], Traitement automatique des Langues, Linguistique de corpus, [INFO.INFO-IR] Computer Science [cs]/Information Retrieval [cs.IR], [SHS.LANGUE]Humanities and Social Sciences/Linguistics
Abstract: Criminal analysis is a discipline that supports investigations practiced within the National Gendarmerie. It is based on the use of the documents compiled in the judicial procedure file (witness interviews, search warrants, expert reports, phone and bank data, etc.) to synthesize the information collected and to propose a new understanding of the facts examined. While criminal analysis uses data visualization software (i. e. IBM Analyst's Notebook) to display the hypotheses formulated, the digital and textual management of the file documents is entirely manual. However, criminal analysis relies on entities to formalize its practice. The presentation of the research context details the practice of criminal analysis as well as the constitution of judicial procedure files as textual corpora. We then propose perspectives for the adaptation of natural language processing (NLP) and information extraction methods to the case study, including a comparison of the concepts of entity in criminal analysis and named entity in NLP. This comparison is done on the conceptual and linguistic plans. A first approach to the detection of entities in witness interviews is presented. Finally, since textual genre is a parameter to be taken into account when applying automatic processing to text, we develop a structure of the 'legal' textual genre into discourse, genres, and sub-genres through a textometric study aimed at characterizing different types of texts (including witness interviews) produced by the field of justice., L'analyse criminelle est une discipline d'appui aux enquêtes pratiquée au sein de la Gendarmerie Nationale. Elle repose sur l'exploitation des documents compilés dans le dossier de procédure judiciaire (auditions, perquisitions, rapports d'expertise, données téléphoniques et bancaires, etc.) afin de synthétiser les informations collectées et de proposer un regard neuf sur les faits examinés. Si l'analyse criminelle a recours à des logiciels de visualisation de données (i. e. Analyst's Notebook d'IBM) pour la mise en forme des hypothèses formulées, la gestion informatique et textuelle des documents de la procédure est entièrement manuelle. Or, l'analyse criminelle s'appuie entre autres sur le concept d'entités pour formaliser son travail. La présentation du contexte de recherche détaille la pratique de l'analyse criminelle ainsi que la constitution du dossier de procédure judiciaire en tant que corpus textuel. Nous proposons ensuite des perspectives pour l'adaptation des méthodes de traitement automatique de la langue (TAL) et d'extraction d'information au cas d'étude, notamment la mise en parallèle des concepts d'entité en analyse criminelle et d'entité nommée en TAL. Cette comparaison est réalisée sur les plans conceptuels et linguistiques. Une première approche de détection des entités dans les auditions de témoins est présentée. Enfin, le genre textuel étant un paramètre à prendre en compte lors de l'application de traitements automatiques à du texte, nous construisons une structuration du genre textuel « légal » en discours, genres et sous-genres par le biais d'une étude textométrique visant à caractériser différents types de textes (dont les auditions de témoins) produits par le domaine de la justice.
Published: 2020

34. Participation d’EDF R&D à DEFT 2020

Author: Cao, Danrun, Benamar, Alexandra, Boumghar, Manel, Bothua, Meryl, Ould Ouali, Lydia, Suignard, Philippe, Pogodalla, Sylvain, Cardon, Rémi, Grabar, Natalia, Grouin, Cyril, Hamon, Thierry, EDF R&D (EDF R&D), EDF (EDF), Benzitoun, Christophe, Braud, Chloé, Huber, Laurine, Langlois, David, Ouni, Slim, and Schneider, Stéphane
Subjects: graphes sémantiques, détection de similarité sémantique, [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL], données cliniques, extraction d’information, Word2Vec, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Abstract: Ce papier décrit la participation d’EDF R&D à la campagne d’évaluation DEFT 2020. Notre équipe a participé aux trois tâchés proposées : deux tâches sur le calcul de similarité sémantique entre phrases et une tâche sur l'extraction d'information fine autour d'une douzaine de catégories. Aucune donnée supplémentaire, autre que les données d’apprentissage, n’a été utilisée. Notre équipe obtient des scores au-dessus de la moyenne pour les tâches 1 et 2 et se classe 2e sur la tâche 1. Les méthodes proposées sont facilement transposables à d’autres cas d’application de détection de similarité qui peuvent concerner plusieurs entités du groupe EDF. Notre participation à la tâche 3 nous a permis de tester les avantages et limites de l’outil SpaCy sur l’extraction d’information.
Published: 2020

35. DEFT 2020 : détection de similarité entre phrases et extraction d'information

Author: Tapi Nzali, Mike, Reezocar, Cardon, Rémi, Grabar, Natalia, Grouin, Cyril, Hamon, Thierry, Pogodalla, Sylvain, Benzitoun, Christophe, Braud, Chloé, Huber, Laurine, Langlois, David, Ouni, Slim, and Schneider, Stéphane
Subjects: apprentissage automatique, détection de similarité sémantique, [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL], extraction d’information, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Abstract: Ce papier décrit la participation de Reezocar à la campagne d’évaluation DEFT 2020. Cette seizième édition du challenge a porté sur le calcul de similarité entre phrases et l’extraction d’information fine autour d’une douzaine de catégories dans des textes rédigés en Français. Le challenge propose trois tâches : (i) la première concerne l’identification du degré de similarité entre paires de phrases ; (ii) la deuxième concerne l’identification des phrases parallèles possibles pour une phrase source et (iii) la troisième concerne l’extraction d’information. Nous avons utilisé des méthodes d’apprentissage automatique pour effectuer ces tâches et avons obtenu des résultats satisfaisants sur l’ensemble des tâches.
Published: 2020

36. Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 31e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition)

Author: Benzitoun, Christophe, Braud, Chloé, Huber, Laurine, Langlois, David, Ouni, Slim, Pogodalla, Sylvain, Schneider, Stéphane, Analyse et Traitement Informatique de la Langue Française (ATILF), Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), MEthodes et ingénierie des Langues, des Ontologies et du DIscours (IRIT-MELODI), Institut de recherche en informatique de Toulouse (IRIT), Université Toulouse 1 Capitole (UT1)-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1)-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées, Knowledge representation, reasonning (ORPAILLEUR), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Statistical Machine Translation and Speech Modelization and Text (SMarT), Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Speech Modeling for Facilitating Oral-Based Communication (MULTISPEECH), Semantic Analysis of Natural Language (SEMAGRAMME), Institut de l'information scientifique et technique (INIST), Centre National de la Recherche Scientifique (CNRS), Benzitoun, Christophe and Braud, Chloé and Huber, Laurine and Langlois, David and Ouni, Slim and Pogodalla, Sylvain and Schneider, Stéphane, and Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
Subjects: Traitement Automatique des Langues Naturelles, Systèmes de dialogue, [INFO.INFO-SD]Computer Science [cs]/Sound [cs.SD], Traitement Automatique des Langues, Apprentissage des langues, Enseignement des langues, Extraction d'information, ComputingMilieux_MISCELLANEOUS, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL], [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]
Abstract: International audience; no abstract
Published: 2020

37. Une méthode d'extraction d'information fondée sur les graphes pour le remplissage de formulaires.

Author: Jean-Louis, Ludovic, Besançon, Romaric, and Ferret, Olivier
Abstract: Copyright of Traitement Automatique des Langues is the property of Association pour le Traitement Automatique des Langues (ATALA) and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
Published: 2013

38. Multilingual person name recognition and transliteration

Author: Bruno Pouliquen, Ralf Steinberger, Camelia Ignat, Irina Temnikova, and Anna Widiger
Subjects: entités nommées, translittération, extraction d’information, multilinguisme, repérage multilingue d’entités nommées, traitement automatique (du langage), Anthropology, GN1-890, Language and Literature, Philosophy. Psychology. Religion
Abstract: We present an exploratory tool that extracts person names from multilingual news collections, matches name variants referring to the same person, and infers relationships between people based on the co-occurrence of their names in related news. A novel feature is the matching of name variants across languages and writing systems, including names written with the Greek, Cyrillic and Arabic writing system. Due to our highly multilingual setting, we use an internal standard representation for name representation and matching, instead of adopting the traditional bilingual approach to transliteration. This work is part of a news analysis system that clusters an average of 25,000 news articles per day to detect related news within the same and across different languages.
Published: 2005
Full Text: View/download PDF

39. Automatic extraction of paraphrastic phrases from small-size corpora.

Author: Poibeau, Thierry and Dutoit, Dominique
Subjects: *EXTRACTION (Linguistics), *NATURAL language processing, *SEMANTIC networks (Information theory), *PHRASE structure grammar, *CORPORA, *DISCOURSE analysis, *INFORMATION resources, *AUTOMATIC extracting (Information science), *INFORMATION science
Abstract: This paper presents a versatile system intended to acquire paraphrastic phrases from a small-size representative corpus. In order to decrease the time spent on the elaboration of resources for NLP system (for example for Information Extraction), we suggest to use a knowledge acquisition module that helps extracting new information despite linguistic variation. This knowledge is semi-automatically derived from the text collection, in interaction with a large semantic network. [ABSTRACT FROM AUTHOR]
Published: 2009
Full Text: View/download PDF

40. Patrons linguistiques pour l'extraction de tâches dans des transcriptions de réunions

Author: Patel, Namrata, Lannes, Mathilde, Pradel, Camille, Graphs for Inferences on Knowledge (GRAPHIK), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), AFIA, Nathalie Hernandez, and Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Inria Sophia Antipolis - Méditerranée (CRISAM)
Subjects: Extraction de tâches, Patrons linguistiques, Extraction d'information, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]
Abstract: National audience; Nous présentons une méthode d'extraction d'informations en deux grandes étapes : (1) analyse morphosyntaxique et annotation sémantique du texte, puis (2) identification de patrons linguistiques par application d'un ensemble de règles sur le texte annoté. Elle est appliquée sur des cas d'usage d'extraction de tâches : des transcriptions de réunions. Une évaluation qualitative manuelle sur un jeu de données réduit montre des résultats encourageants.
Published: 2019

41. Qwant Research @DEFT 2019 : appariement de documents et extraction d'informations à partir de cas cliniques

Author: Estelle Maudet, Oralie Cattan, Maureen de Seyssel, Christophe Servan, QWANT RESEARCH (QR), and Servan, Christophe
Subjects: FOS: Computer and information sciences, Similarité sémantique, Computer Science - Machine Learning, Computer Science - Computation and Language, neural network, réseaux de neurones, query likelihood model, [INFO.INFO-TT] Computer Science [cs]/Document and Text Processing, Machine Learning (stat.ML), syntactic analysis, modèle de langues, Computer Science - Information Retrieval, Machine Learning (cs.LG), [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing, modèle de vraisemblance de la requête, Semantic similarity, Statistics - Machine Learning, language model, information extraction, extraction d’information, Computation and Language (cs.CL), Information Retrieval (cs.IR), analyse syntaxique
Abstract: This paper reports on Qwant Research contribution to tasks 2 and 3 of the DEFT 2019’s challenge,focusing on French clinical cases analysis. Task 2 is a task on semantic similarity between clinicalcases and discussions. For this task, we propose an approach based on language models and evaluatethe impact on the results of different preprocessings and matching techniques. For task 3, we havedeveloped an information extraction system yielding very encouraging results accuracy-wise. Wehave experimented two different approaches, one based on the exclusive use of neural networks, theother based on a linguistic analysis., Dans ce papier, nous présentons la participation de Qwant Research aux tâches 2 et 3 de l'édition 2019 du défi fouille de textes (DEFT 2019) portant cette année sur l'analyse de documents cliniques rédigés en français. La tâche 2 est une tâche de similarité sémantique qui demande d'apparier cas cliniques et discussions médicales deux à deux. Pour résoudre cette tâche, nous proposons une approche reposant sur des modèles de langue et évaluons l'impact de différents pré-traitements et de différentes techniques d'appariement sur les résultats. Pour la tâche 3, nous avons développé un système d'extraction d'information qui produit des résultats encourageants en terme de précision. Nous avons expérimenté deux approches différentes, l'une se fondant exclusivement sur l'utilisation de réseaux de neurones pour traiter la tâche, l'autre reposant sur l'exploitation des informations linguistiques issues d'une analyse syntaxique. ABSTRACT Document matching and information retrieval using clinical cases. This paper reports on Qwant Research contribution to tasks 2 and 3 of the DEFT 2019's challenge, focusing on French clinical cases analysis. Task 2 is a task on semantic similarity between clinical cases and discussions. For this task, we propose an approach based on language models and evaluate the impact on the results of different preprocessings and matching techniques. For task 3, we have developed an information extraction system yielding very encouraging results accuracy-wise. We have experimented two different approaches, one based on the exclusive use of neural networks, the other based on a linguistic analysis. MOTS-CLÉS : Similarité sémantique, extraction d'information, modèle de langues, modèle de vraisemblance de la requête, réseaux de neurones, analyse syntaxique.
Published: 2019

42. Recherche et extraction d'information dans des cas cliniques. Présentation de la campagne d'évaluation DEFT 2019

Author: Grabar, Natalia, Grouin, Cyril, Hamon, Thierry, Claveau, Vincent, Savoirs, Textes, Langage (STL) - UMR 8163 (STL), Université de Lille-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris Saclay (COmUE)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11), Creating and exploiting explicit links between multimedia fragments (LinkMedia), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-MEDIA ET INTERACTIONS (IRISA-D6), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Bretagne Sud (UBS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-CentraleSupélec-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Bretagne Sud (UBS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Université Paris-Sud - Paris 11 (UP11)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Université Paris Saclay (COmUE), Université Sorbonne Paris Nord, Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), and Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique)
Subjects: Cas cliniques, evaluation, fouille de texte, text-mining, Recherche d'information, Extraction d'information, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL], [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], Clinical cases, [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR], Évaluation, information retrieval, information extraction, ComputingMilieux_MISCELLANEOUS
Abstract: International audience
Published: 2019

43. Corpus annoté de cas cliniques en français

Author: Grabar, Natalia, Grouin, Cyril, Hamon, Thierry, Claveau, Vincent, Savoirs, Textes, Langage (STL) - UMR 8163 (STL), Université de Lille-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris-Sud - Paris 11 (UP11)-Université Paris-Saclay-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Université Paris Saclay (COmUE), Université Paris 13 (UP13), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Université Paris Saclay (COmUE)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11), Université de Bretagne Sud (UBS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-CentraleSupélec-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique), Creating and exploiting explicit links between multimedia fragments (LinkMedia), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-MEDIA ET INTERACTIONS (IRISA-D6), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Bretagne Sud (UBS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Université Paris-Sud - Paris 11 (UP11)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Université Paris Saclay (COmUE), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), and Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique)
Subjects: cas clinique, clinical case, catégorisation, Clinical corpus, Extraction d'informations, categorization, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL], [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], extraction d'information, [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR], annotations, [INFO]Computer Science [cs], information extraction, ComputingMilieux_MISCELLANEOUS, Corpus clinique
Abstract: Les corpus textuels sont utiles pour diverses applications de traitement automatique des langues (TAL) en fournissant les données nécessaires pour leur création, adaptation ou évaluation. Cependant, dans certains domaines comme le domaine médical, l’accès aux données est rendu compliqué, voire impossible, pour des raisons de confidentialité et d’éthique. Il existe néanmoins de réels besoins en corpus cliniques pour l’enseignement et la recherche. Pour répondre à ce défi, nous présentons dans cet article le corpus CAS contenant des cas cliniques de patients, réels ou fictifs, que nous avons compilés. Ces cas cliniques en français couvrent plusieurs spécialités médicales et focalisent donc sur différentes situations cliniques. Actuellement, le corpus contient 4 300 cas (environ 1,5M d’occurrences de mots). Il est accompagné d’informations (discussions des cas cliniques, mots-clés, etc.) et d’annotations que nous avons effectuées au regard des besoins de la recherche en TAL dans ce domaine. Nous présentons également les résultats de premières expériences de recherche et d’extraction d’information qui ont été effectuées avec ce corpus annoté. Ces expériences peuvent fournir une baseline à d’autres chercheurs souhaitant travailler avec les données.
Published: 2019

44. Vector Representations and Machine Learning for Alignment of Text Entities with Ontology Concepts : Application to Biology

Author: Ferré, Arnaud, Mathématiques et Informatique Appliquées du Génome à l'Environnement [Jouy-En-Josas] (MaIAGE), Institut National de la Recherche Agronomique (INRA), Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris-Sud - Paris 11 (UP11)-Université Paris-Saclay-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Université Paris Saclay (COmUE), Université Paris-Saclay, Claire Nédellec, Pierre Zweigenbaum, Université Paris Saclay (COmUE)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11), Université Paris Saclay (COmUE), and STAR, ABES
Subjects: [INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI], Artificial intelligence, Information extraction, Natural language processing, Word embedding, Normalisation, Intelligence artificielle, Extraction d’information, Traitement automatique des langues, Plongement lexical, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], Normalization, [INFO.INFO-BI]Computer Science [cs]/Bioinformatics [q-bio.QM], [INFO.INFO-BI] Computer Science [cs]/Bioinformatics [q-bio.QM]
Abstract: The impressive increase in the quantity of textual data makes it difficult today to analyze them without the assistance of tools. However, a text written in natural language is unstructured data, i.e. it cannot be interpreted by a specialized computer program, without which the information in the texts remains largely under-exploited. Among the tools for automatic extraction of information from text, we are interested in automatic text interpretation methods for the entity normalization task that consists in automatically matching text entitiy mentions to concepts in a reference terminology. To accomplish this task, we propose a new approach by aligning two types of vector representations of entities that capture part of their meanings: word embeddings for text mentions and concept embeddings for concepts, designed specifically for this work. The alignment between the two is done through supervised learning. The developed methods have been evaluated on a reference dataset from the biological domain and they now represent the state of the art for this dataset. These methods are integrated into a natural language processing software suite and the codes are freely shared., L'augmentation considérable de la quantité des données textuelles rend aujourd’hui difficile leur analyse sans l’assistance d’outils. Or, un texte rédigé en langue naturelle est une donnée non-structurée, c’est-à-dire qu’elle n’est pas interprétable par un programme informatique spécialisé, sans lequel les informations des textes restent largement sous-exploitées. Parmi les outils d’extraction automatique d’information, nous nous intéressons aux méthodes d’interprétation automatique de texte pour la tâche de normalisation d’entité qui consiste en la mise en correspondance automatique des mentions d’entités de textes avec des concepts d’un référentiel. Pour réaliser cette tâche, nous proposons une nouvelle approche par alignement de deux types de représentations vectorielles d’entités capturant une partie de leur sens : les plongements lexicaux pour les mentions textuelles et des “plongements ontologiques” pour les concepts, conçus spécifiquement pour ce travail. L’alignement entre les deux se fait par apprentissage supervisé. Les méthodes développées ont été évaluées avec un jeu de données de référence du domaine biologique et elles représentent aujourd’hui l’état de l’art pour ce jeu de données. Ces méthodes sont intégrées dans une suite logicielle de traitement automatique des langues et les codes sont partagés librement.
Published: 2019

45. Détection des fraudes : de l’image à la sémantique du contenu : application à la vérification des informations extraites d’un corpus de tickets de caisse

Author: Artaud, Chloé, Laboratoire Informatique, Image et Interaction - EA 2118 (L3I), Université de La Rochelle (ULR), Université de La Rochelle, Antoine Doucet, and Jean-Marc Ogier
Subjects: Fausses informations, [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing, False documents detection, Information extraction, Ontology, Fake information, Abbreviation, Dataset of documents, Ontologie, Abréviations, Corpus de documents, Extraction d’information, Détection des faux documents
Abstract: Companies, administrations, and sometimes individuals, have to face many frauds on documents they receive from outside or process internally. Invoices, expense reports, receipts...any document used as proof can be falsified in order to earn more money or not to lose it. In France, losses due to fraud are estimated at several billion euros per year. Since the flow of documents exchanged, whether digital or paper, is very important, it would be extremely costly and time-consuming to have them all checked by fraud detection experts. That’s why we propose in our thesis a system for automatic detection of false documents. While most of the work in automatic document detection focuses on graphic clues, we seek to verify the textual information in the document in order to detect inconsistencies or implausibilities.To do this, we first compiled a corpus of documents that we digitized. After correcting the characters recognition outputs and falsifying part of the documents, we extracted the information and modelled them in an ontology, in order to keep the semantic links between them. The information thus extracted, and increased by its possible disambiguation, can be verified against each other within the document and through the knowledge base established. The semantic links of ontology also make it possible to search for information in other sources of knowledge, particularly on the Internet.; Les entreprises, les administrations, et parfois les particuliers, doivent faire face à de nombreuses fraudes sur les documents qu’ils reçoivent de l’extérieur ou qu’ils traitent en interne. Les factures, les notes de frais, les justificatifs... tout document servant de preuve peut être falsifié dans le but de gagner plus d’argent ou de ne pas en perdre. En France, on estime les pertes dues aux fraudes à plusieurs milliards d’euros par an. Étant donné que le flux de documents échangés, numériques ou papiers, est très important, il serait extrêmement coûteux en temps et en argent de les faire tous vérifier par des experts de la détection des fraudes. C’est pourquoi nous proposons dans notre thèse un système de détection automatique des faux documents. Si la plupart des travaux en détection automatique des faux documents se concentrent sur des indices graphiques, nous cherchons quant à nous à vérifier les informations textuelles du document afin de détecter des incohérences ou des invraisemblances. Pour cela, nous avons tout d’abord constitué un corpus de tickets de caisse que nous avons numérisés et dont nous avons extrait le texte. Après avoir corrigé les sorties de l’OCR et fait falsifier une partie des documents, nous en avons extrait les informations et nous les avons modélisées dans une ontologie, afin de garder les liens sémantiques entre elles. Les informations ainsi extraites, et augmentées de leurs possibles désambiguïsations, peuvent être vérifiées les unes par rapport aux autres au sein du document et à travers la base de connaissances constituée. Les liens sémantiques de l’ontologie permettent également de chercher l’information dans d’autres sources de connaissances, et notamment sur Internet.
Published: 2019

46. Fraud detection : from image to semantics of content

Author: Artaud, Chloé, Laboratoire Informatique, Image et Interaction - EA 2118 (L3I), Université de La Rochelle (ULR), Université de La Rochelle, Antoine Doucet, Jean-Marc Ogier, and STAR, ABES
Subjects: False documents detection, Information extraction, Ontology, Fake information, [INFO.INFO-TT] Computer Science [cs]/Document and Text Processing, Dataset of documents, Ontologie, Corpus de documents, Extraction d’information, Détection des faux documents, Fausses informations, [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing, Abbreviation, Abréviations
Abstract: Companies, administrations, and sometimes individuals, have to face many frauds on documents they receive from outside or process internally. Invoices, expense reports, receipts...any document used as proof can be falsified in order to earn more money or not to lose it. In France, losses due to fraud are estimated at several billion euros per year. Since the flow of documents exchanged, whether digital or paper, is very important, it would be extremely costly and time-consuming to have them all checked by fraud detection experts. That’s why we propose in our thesis a system for automatic detection of false documents. While most of the work in automatic document detection focuses on graphic clues, we seek to verify the textual information in the document in order to detect inconsistencies or implausibilities.To do this, we first compiled a corpus of documents that we digitized. After correcting the characters recognition outputs and falsifying part of the documents, we extracted the information and modelled them in an ontology, in order to keep the semantic links between them. The information thus extracted, and increased by its possible disambiguation, can be verified against each other within the document and through the knowledge base established. The semantic links of ontology also make it possible to search for information in other sources of knowledge, particularly on the Internet., Les entreprises, les administrations, et parfois les particuliers, doivent faire face à de nombreuses fraudes sur les documents qu’ils reçoivent de l’extérieur ou qu’ils traitent en interne. Les factures, les notes de frais, les justificatifs... tout document servant de preuve peut être falsifié dans le but de gagner plus d’argent ou de ne pas en perdre. En France, on estime les pertes dues aux fraudes à plusieurs milliards d’euros par an. Étant donné que le flux de documents échangés, numériques ou papiers, est très important, il serait extrêmement coûteux en temps et en argent de les faire tous vérifier par des experts de la détection des fraudes. C’est pourquoi nous proposons dans notre thèse un système de détection automatique des faux documents. Si la plupart des travaux en détection automatique des faux documents se concentrent sur des indices graphiques, nous cherchons quant à nous à vérifier les informations textuelles du document afin de détecter des incohérences ou des invraisemblances. Pour cela, nous avons tout d’abord constitué un corpus de tickets de caisse que nous avons numérisés et dont nous avons extrait le texte. Après avoir corrigé les sorties de l’OCR et fait falsifier une partie des documents, nous en avons extrait les informations et nous les avons modélisées dans une ontologie, afin de garder les liens sémantiques entre elles. Les informations ainsi extraites, et augmentées de leurs possibles désambiguïsations, peuvent être vérifiées les unes par rapport aux autres au sein du document et à travers la base de connaissances constituée. Les liens sémantiques de l’ontologie permettent également de chercher l’information dans d’autres sources de connaissances, et notamment sur Internet.
Published: 2019

47. Interprétation et visualisation contextuelle de NOTAMs (messages aux navigants aériens)

Author: Arnold, Alexandre, Dupont, Gérard, Kobus, Catherine, Lancelot, François, Narayan, Pooja, EADS Innovation Works [Toulouse], EADS - European Aeronautic Defense and Space, Unité de Science du Sol, Institut National de la Recherche Agronomique (INRA), Laboratoire Informatique d'Avignon (LIA), Centre d'Enseignement et de Recherche en Informatique - CERI-Avignon Université (AU), France Télécom Recherche et Développement [Lannion] (FTR&D), France Télécom, Airbus Group Innovations [Toulouse], Airbus [France], Airbus Group [Germany], Morin, Emmanuel, Rosset, Sophie, Zweigenbaum, Pierre, and Parmentier, Yannick
Subjects: [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL], NOTAM, biLSTM-CRF, création d’un dataset, extraction d’information, reconnaissance d’entités imbriquées, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Abstract: Pooja Narayan 2 NOTAM, extraction d’information, reconnaissance d’entités imbriquées, biLSTM-CRF, création d’un dataset. ploiter les progrès significatifs récents en compréhension du langage naturel grâce aux réseaux neuronaux profonds pour extraire des informations clés des NOTAMs. Dans la partie 2, nous décrivons en détails ce qu’est un NOTAM dans le monde aéronautique mais détaillons aussi ses spécificités en terme linguistique. Nous détaillons ensuite (partie 3) les informations que l’on souhaite extraire de ces messages ainsi que l’approche choisie à base de reconnaissance d’entités imbriquées. La partie 4 décrit le dataset créé (ainsi que le protocole d’annotation suivi) dans le contexte de cette étude. La section 5 décrit en détails les expériences faites ainsi que les résultats obtenus. La partie 6 décrit la démonstration ; enfin, sont abordées quelques perspectives d’amélioration du système dans la section 7.
Published: 2019

48. Détection et extraction de néologismes sémantiques spécialisés : une approche au moyen de classification automatique de documents avec des stratégies d'apprentissage profond

Author: Torres Rivera, Andrés, STAR, ABES, Laboratoire Informatique d'Avignon (LIA), Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI, Université d'Avignon, Universitat Pompeu Fabra (Barcelone, Espagne), Juan-Manuel Torres-Moreno, Rosa Estopà, and Centre d'Enseignement et de Recherche en Informatique - CERI-Avignon Université (AU)
Subjects: Neologie, [INFO.EIAH] Computer Science [cs]/Technology for Human Learning, Neology, Natural language processing, Information retrieval, [INFO.EIAH]Computer Science [cs]/Technology for Human Learning, Terminology, Terminologie, Semantique, Traitement automatique des langues, Extraction d'information, Semantics
Abstract: Dins del camp de la neologia, s’han dissenyat diferents aproximacions metodològics pera la detecció i extracció de neologismes semàntics amb tècniques com la desambiguaciósemàntica i el modelatge de temes, però encara no existeix cap proposta d’un sistema pera la detecció d’aquestes unitats. A partir d’un estudi detallat sobre els supòsits teòricsnecessaris per identificar i descriure els neologismes semàntics, en aquesta tesi proposemel desenvolupament d’una aplicació per identificar i buidar aquestes unitats mitjançantestratègies estadístiques, de mineria de dades i d’aprenentatge automàtic. La metodologiaque es planteja es basa en el tractament del procés de detecció i extracció com un problemade classificació, que consisteix a analitzar la concordança de temes entre el campsemàntic del significat principal d’una paraula i el text en què es troba aquesta paraula.Per constituir l’arquitectura del sistema proposat, analitzem cinc mètodes de classificacióautomàtica supervisada i tres models per a la generació de representacions vectorials deparaules mitjançant aprenentatge profund. El nostre corpus d’anàlisi està format pels neologismessemàntics de l’àmbit de la informàtica pertanyents a la base de dades de l’Observatoride Neologia de la Universitat Pompeu Fabra, que s’han registrat des de 1989 fins a2015. Utilitzem aquest corpus per avaluar els diferents mètodes que implementa el sistema:classificació automàtica, extracció de paraules a partir de contextos breus i generacióde llistes de paraules similars. Aquesta primera aproximació metodològica busca establirun marc de referència en matèria de detecció i extracció de neologismes semàntics., In the field of neology, different methodological approaches for the detection and extractionof semantic neologisms have been developed using strategies such as word sensedisambiguation and topic modeling, but there is still not a proposal for a system for thedetection of these units. Beginning from a detailed study on the necessary theoreticalassumptions required to delimit and describe semantic neologisms, in this thesis, we proposethe development of an application to identify and extract said units using statistical,data mining and machine learning strategies. The proposed methodology is based ontreating the process of detection and extraction as a classification task, which consists onanalyzing the concordance of topics between the semantic field from the main meaningof a word and the text where it is found. To build the architecture of the proposed system,we analyzed five automatic classification methods and three deep learning based wordembedding models. Our analysis corpus is composed of the semantic neologisms of thecomputer science field belonging to the database of the Observatory of Neology of thePompeu Fabra University, which have been registered from 1989 to 2015. We used thiscorpus to evaluate the different methods that our system implements: automatic classification,keyword extraction from short contexts, and similarity list generation. This firstmethodological approach aims to establish a framework of reference in terms of detectionand extraction of semantic neologisms., En el campo de la neología, se han desarrollado diferentes acercamientos metodológicospara la detección y extracción de neologismos semánticos empleando estrategias comola desambiguación semántica y el modelado de temas, pero todavía no existe una propuestade un sistema para la detección de estas unidades. A partir de un estudio detalladosobre los supuestos teóricos necesarios para delimitar y describir los neologismos semánticos,en esta tesis proponemos el desarrollo de una aplicación para identificar y vaciardichas unidades mediante estrategias estadísticas, de minería de datos y de aprendizajeautomático. La metodología planteada se basa en el tratamiento del proceso de deteccióny extracción como un problema de clasificación, que consiste en analizar la concordanciade temas entre el campo semántico del significado principal de una palabra y el texto enel que se encuentra. Para constituir la arquitectura del sistema propuesto, analizamos cincométodos de clasificación automática supervisada y tres modelos para la generación derepresentaciones vectoriales de palabras mediante aprendizaje profundo. Nuestro corpusde análisis está compuesto por los neologismos semánticos del ámbito de la informáticapertenecientes a la base datos del Observatorio de Neologia de la Universitat Pompeu Fabra,que han sido registrados desde 1989 hasta 2015. Utilizamos este corpus para evaluarlos distintos métodos que implementa el sistema: clasificación automática, extracción depalabras a partir de contextos cortos y generación de listas de palabras similares. Esteprimer acercamiento metodológico busca establecer un marco de referencia en materia dedetección y extracción de neologismos semánticos., Dans le domaine de la néologie, différentes approches méthodologiques ont été développées pour la détection et l’extraction de néologismes sémantiques. Ces approches utilisent des stratégies telles que la désambiguïsation sémantique et la modélisation thématique,mais il n’existe aucun système complet de détection de néologismes sémantiques.Ainsi, nous proposons dans cette thèse le développement des algorithmes qui permettent d’identifier et d’extraire les néologismes sémantiques au moyen de méthodes statistiques,d’extraction d’information et d’apprentissage automatique. La méthodologie proposée est basée sur le traitement du processus de détection et d’extraction en tant que problème de classification. Il consiste à analyser la proximité des thèmes entre le champ sémantique de la signification principale d’un terme et son contexte. Pour la construction du système nous avons étudié cinq méthodes de classification automatique supervisée et trois modèles pour la génération de représentations vectorielles de mots par apprentissage profonde. Le corpus d’analyse est composé de néologismes sémantiques du domaine informatique appartenant à la base de données de l’Observatoire de Néologie de l’Université Pompeu Fabra, enregistrés de 1989 à 2015. Nous utilisons ce corpus pour évaluer les différentes méthodes mises en oeuvre par le système : classification automatique, extraction de mots à partir de contextes courts et génération de listes de mots similaires. Cette première approche méthodologique cherche à établir un cadre de référence en termes de détection et d’extraction de néologismes sémantiques.
Published: 2019

49. Bacteria Biotope at BioNLP Open Shared Tasks 2019

Author: Mouhamadou Ba, Louise Deléger, Estelle Chaix, Robert Bossy, Claire Nédellec, Mathématiques et Informatique Appliquées du Génome à l'Environnement [Jouy-En-Josas] (MaIAGE), Institut National de la Recherche Agronomique (INRA), Université Paris Saclay (COMUE), Institut de Convergence DataIA, Jin-Dong Kim, Claire Nédellec, Robert Bossy, and Louise Deléger
Subjects: Biotope, biologie, Computer science, Biodiversity, Ontology (information science), computer.software_genre, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI], Task (project management), 03 medical and health sciences, intelligence artificielle, [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], 030304 developmental biology, 0303 health sciences, biology, business.industry, 030302 biochemistry & molecular biology, biology.organism_classification, Biomedical text mining, extraction d'information, [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing, [SDV.MP]Life Sciences [q-bio]/Microbiology and Parasitology, Artificial intelligence, business, computer, Bacteria, Natural language processing
Abstract: International audience; This paper presents the fourth edition of the Bacteria Biotope task at BioNLP Open Shared Tasks 2019. The task focuses on the extraction of the locations and phenotypes of microorganisms from PubMed abstracts and full-text excerpts, and the characterization of these entities with respect to reference knowledge sources (NCBI taxonomy, OntoBiotope ontology). The task is motivated by the importance of the knowledge on biodiversity for fundamental research and applications in microbiology. The paper describes the different proposed subtasks, the corpus characteristics, and the challenge organization. We also provide an analysis of the results obtained by participants, and inspect the evolution of the results since the last edition in 2016.
Published: 2019
Full Text: View/download PDF

50. SylNews, un agréfilter multilingue

Author: Hamon, Olivier, Espasa, Kévin, Quispe, Sara, Parmentier, Yannick, Morin, Emmanuel, Rosset, Sophie, Zweigenbaum, Pierre, Syllabs, Evaluations and Language resources Distribution Agency (ELDA), ELDA, Universidad Nacional Amazónica de Madre de Dios, and Partenaires INRAE
Subjects: [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL], extraction d’information, agréfilter, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL], clustering
Abstract: Depuis plusieurs années, Syllabs intègre de nombreux composants au sein d’un agréfilter, utilisant des technologies d’extraction d’information développées en interne et dans un contexte multilingue. Originellement conçu pour agréger des contenus issus de la presse, SylNews peut être utilisé à des fins de veille, pour explorer des contenus, ou pour identifier d’une manière plus globale les sujets chauds de l’ensemble ou d’une partie des contenus stockés.
Published: 2019

Catalog

Books, media, physical & digital resources

See catalog results

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Search

Search Constraints

Refine your results

Search Limiters

Topic

Publication Year Range

Language

Publication Type

Journal

Database

Publisher

228 results on '"Extraction d'information"'

Search Results

Catalog

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources