14 results on '"Génération de texte"'
Search Results
2. Intégration de connaissances structurées par synthèse de texte spécialisé
- Author
-
Piat, Guilhem, Kirby, Ellington, Tourille, Julien, Semmar, Nasredine, Allauzen, Alexandre, Essafi, Hassane, Université Paris Dauphine-PSL, Université Paris sciences et lettres (PSL), Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (LAMSADE), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, CEA, List, Servan, Christophe, and Vilnat, Anne
- Subjects
Génération de texte ,Adaptation au domaine ,Intégration de connaissances ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Modèle de langage biomédical - Abstract
International audience; Les modèles de langue de type Transformer peinent à incorporer les modifications ayant pour but d'intégrer des formats de données structurés non-textuels tels que les graphes de connaissances. Les exemples où cette intégration est faite avec succès requièrent généralement que le problème de désambiguïsation d'entités nommées soit résolu en amont, ou bien l'ajout d'une quantité importante de texte d'entraînement, généralement annotée. Ces contraintes rendent l'exploitation de connaissances structurées comme source de données difficile et parfois même contre-productive. Nous cherchons à adapter un modèle de langage au domaine biomédical en l'entraînant sur du texte de synthèse issu d'un graphe de connaissances, de manière à exploiter ces informations dans le cadre d'une modalité maîtrisée par le modèle de langage.
- Published
- 2023
3. Décodage guidé par un discriminateur avec le Monte Carlo Tree Search pour la génération de texte contrainte
- Author
-
Chaffin, Antoine, Claveau, Vincent, Kijak, Ewa, IMATAG [Rennes], Creating and exploiting explicit links between multimedia fragments (LinkMedia), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-SIGNAL, IMAGE ET LANGAGE (IRISA-D6), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, and Zanon Boito, Marcely
- Subjects
Génération de texte ,decoding ,Monte Carlo Tree Search ,décodage ,Text generation ,collaborative generation ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,génération collaborative - Abstract
National audience; In this paper, we explore how to control text generation at decoding time to satisfy certain constraints (eg. being non-toxic, conveying certain emotions...) without fine-tuning the language model. Precisely, we formalize constrained generation as a tree exploration process guided by a discriminator that indicates how well the associated sequence respects the constraint. We propose several original methods to search this generation tree, notably the Monte Carlo Tree Search (MCTS) which provides theoretical guarantees on the search efficiency.Through 3 tasks and 2 languages, we show that discriminator-guided MCTS decoding achieves state-of-the-art results without having to tune the language model. We also demonstrate that other proposed decoding methods based on re-ranking can be really effective when diversity among the generated propositions is encouraged.; Dans cet article, nous explorons comment contrôler la génération de texte au moment du décodage pour satisfaire certaines contraintes (e.g. être non toxique, transmettre certaines émotions...), sans nécessiter de ré-entrainer le modèle de langue. Pour cela, nous formalisons la génération sous contrainte comme un processus d’exploration d’arbre guidé par un discriminateur qui indique dans quelle mesure la séquence associée respecte la contrainte. Nous proposons plusieurs méthodes originales pour explorer cet arbre de génération, notamment le Monte Carlo Tree Search (MCTS) qui fournit des garanties théoriques sur l’efficacité de la recherche. Au travers d’expériences sur 3 jeux de données et 2 langues, nous montrons que le décodage par MCTS guidé par les discriminateurs permet d’obtenir des résultats à l’état-de-l’art. Nous démontrons également que d’autres méthodes de décodage que nous proposons, basées sur le re-ordonnancement, peuvent être réellement efficaces lorsque la diversité parmi les propositions générées est encouragée.
- Published
- 2022
4. Constrained text generation to measure reading performance: A new approach based on multivalued decision diagrams
- Author
-
Bonlarron, Alexandre, Calabrese, Aurelie, Kornprobst, Pierre, Régin, Jean-Charles, Biologically plausible Integrative mOdels of the Visual system : towards synergIstic Solutions for visually-Impaired people and artificial visiON (BIOVISION), Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), Université Nice Sophia Antipolis (1965 - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA), Laboratoire de psychologie cognitive (LPC), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), and Bonlarron, Alexandre
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,texte standardisé ,reading tests ,multivalued decision diagrams (MDD) ,contraintes ,basse vision ,MNREAD test ,test MNREAD ,Text generation ,[INFO] Computer Science [cs] ,diagrammes de décisions multivalués (MDD) ,low vision ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,Génération de texte ,standardized text ,[INFO]Computer Science [cs] ,tests de lecture ,constraints - Abstract
Measuring reading performance is one of the most widely used methods in ophthalmology clinics to judge the effectiveness of treatments, surgical procedures, or rehabilitation techniques. However, reading tests are limited by the small number of standardized texts available. For the MNREAD test, which is one of the reference tests used as an example in this paper, there are only two sets of 19 sentences in French. These sentences are challenging to write because they have to respect rules of different kinds (e.g.,related to grammar, length, lexicon, and display). They are also tricky to find : out of a sample of more than three million sentences from children’s literature, only four satisfy the criteria of the MNREAD reading test. To obtain more sentences, we propose an original approach to text generation that considers all the rules at the generation stage. Our approach is based on Multi-valued Decision Diagrams (MDD). First, we represent the corpus by n-grams and the different rules by MDDs, and then we combine them using operators, notably intersections. The results obtained show that this approach is promising, even if some problems remain, such as memory consumption or a posteriori validation of the meaning of sentences. In 5-gram, we generate more than 4000 sentences that meet the MNREAD criteria and thus easily provide an extension of a 19-sentence set to the MNREAD test., Mesurer les performances de lecture est l’une des méthodes les plus utilisées en clinique ophtalmologique pour juger de l’efficacité des traitements, des procédures chirurgicales ou des techniques de rééducation. Cependant, l’utilisation des tests de lecture est limitée par le faible nombre de textes standardisés disponibles. Pour le test MNREAD, qui est l’un des tests de référence pris comme exemple dans ce papier, il ne comporte que deux jeux de 19 phrases en français. Ces phrases sont difficiles à écrire car elles doivent respecter des règles de différentes natures (e.g., liées à la grammaire, la longueur, le lexique et l’affichage). Ils sont aussi difficile à trouver : Sur un échantillon de plus de trois millions de phrases issues d’ouvrages de la littérature jeunesse, seulement quatre satisfont les critères du test de lecture MNREAD. Pour obtenir davantage de phrases, nous proposons une approche originale de génération de texte qui prenne en compte l’ensemble des règles dès la génération. Notre approche est basée sur les Multi-valued Decision Diagrams (MDD). Nous représentons le corpus par des n-grammes et les différentes règles par des MDD, puis nous les combinons à l’aide d’opérateurs, notamment des intersections. Les résultats obtenus montrent que cette approche est prometteuse, même si certains problèmes demeurent comme la consommation mémoire ou la validation a posteriori du sens des phrases. En 5-gramme, nous engendrons plus de 4000 phrases qui respectent les critères MNREAD et proposons ainsi facilement une extension d’un jeu de 19 phrases au test MNREAD.
- Published
- 2022
5. Choosing The Right Teammate For Cooperative Text Generation
- Author
-
Chaffin, Antoine, Scialom, Thomas, Lamprier, Sylvain, Staiano, Jacopo, Piwowarski, Benjamin, Kijak, Ewa, Claveau, Vincent, IMATAG [Rennes], Creating and exploiting explicit links between multimedia fragments (LinkMedia), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-SIGNAL, IMAGE ET LANGAGE (IRISA-D6), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), reciTAL, Machine Learning and Information Access (MLIA), Institut des Systèmes Intelligents et de Robotique (ISIR), Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS), Institut des sciences de l'information et de leurs interactions (INS2I-CNRS), Estève, Yannick, Jiménez, Tania, Parcollet, Titouan, Zanon Boito, Marcely, and Parmentier, Yannick
- Subjects
Génération de texte ,génération coopérative ,decoding ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,Monte Carlo Tree Search ,décodage ,Text generation ,collaborative generation ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
Language models (LM) generate texts by successively predicting probability distributions for next tokens given past ones. In order to generate texts with some desired properties (eg. being more natural, non toxic, or having a specific writing style...), recent approaches use a classifier to guide thedecoding of the LM distribution towards relevant texts with the expected property. In this paper, we examine three families of (transformer-based) discriminators for this task of cooperative decoding : bidirectional, left-to-right and generative ones. We evaluate the pros and cons of these different types of discriminators for cooperative generation, exploring their respective accuracy on classification tasks, their impact on the resulting sample quality and their computational performance. We also provide the batched implementation of the powerful cooperative decoding strategy used for ourexperiments, the Monte Carlo Tree Search, working with each discriminator for Natural Language Generation., Les modèles de langue génèrent des textes en prédisant successivement des distributions de probabilité pour les prochains tokens en fonction des tokens précédents. Pour générer des textes avec des propriétés souhaitées (par ex. être plus naturels, non toxiques ou avoir un style d’écriture spécifique), une solution — le décodage coopératif — consiste à utiliser un classifieur lors de la génération pour guider l’échantillonnage de la distribution du modèle de langue vers des textes ayant la propriété attendue. Dans cet article, nous examinons trois familles de discriminateurs (basés sur des transformers) pour cette tâche de décodage coopératif : les discriminateurs bidirectionnels, unidirectionnels (de gauche à droite) et génératifs. Nous évaluons leurs avantages et inconvénients, en explorant leur précision respective sur des tâches de classification, ainsi que leur impact sur la génération coopérative et leur coût de calcul, dans le cadre d’une stratégie de décodage état de l’art, basée sur une recherche arborescente de Monte-Carlo (MCTS). Nous fournissons également l’implémentation (batchée) utilisée pour nos expériences.
- Published
- 2022
6. Génération de texte sous contraintes pour mesurer des performances de lecture : Une nouvelle approche basée sur les diagrammes de décisions multivalués
- Author
-
Bonlarron, Alexandre, Calabrese, Aurelie, Kornprobst, Pierre, Régin, Jean-Charles, Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), Université Nice Sophia Antipolis (1965 - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA), Biologically plausible Integrative mOdels of the Visual system : towards synergIstic Solutions for visually-Impaired people and artificial visiON (BIOVISION), Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Laboratoire de psychologie cognitive (LPC), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), Inria, and Bonlarron, Alexandre
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,Génération de texte ,texte standardisé ,contraintes ,basse vision ,test MNREAD ,[INFO]Computer Science [cs] ,tests de lecture ,[INFO] Computer Science [cs] ,diagrammes de décisions multivalués (MDD) ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
National audience; Mesurer les performances de lecture est l’une des méthodes les plus utilisées en clinique ophtalmologique pour juger de l’efficacité des traitements, des procédures chirurgicales ou des techniques de rééducation. Cependant, l’utilisation des tests de lecture est limitée par le faible nombre de textes standardisés disponibles. Pour le test MNREAD, qui est l’un des tests de référence pris comme exemple dans ce papier, il ne comporte que deux jeux de 19 phrases en français. Ces phrases sont difficiles à écrire car elles doivent respecter des règles de différentes natures (e.g., liées à la grammaire, la longueur, le lexique et l’affichage). Ils sont aussi difficile à trouver : Sur un échantillon de plus de trois millions de phrases issues d’ouvrages de la littérature jeunesse, seulement quatre satisfont les critères du test de lecture MNREAD. Pour obtenir davantage de phrases, nous proposons une approche originale de génération de texte qui prenne en compte l’ensemble des règles dès la génération. Notre approche est basée sur les Multi-valued Decision Diagrams (MDD). Nous représentons le corpus par des n-grammes et les différentes règles par des MDD, puis nous les combinons à l’aide d’opérateurs, notamment des intersections. Les résultats obtenus montrent que cette approche est prometteuse, même si certains problèmes demeurent comme la consommation mémoire ou la validation a posteriori du sens des phrases. En 5-gramme, nous engendrons plus de 4000 phrases qui respectent les critères MNREAD et proposons ainsi facilement une extension d’un jeu de 19 phrases au test MNREAD.
- Published
- 2022
7. Génération de textes basés sur la connaissance avec et sans recherche
- Author
-
Fan, Angela, Natural Language Processing : representations, inference and semantics (SYNALP), Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Facebook, Université de Lorraine, Claire Gardent, and Chloé Braud
- Subjects
Génération de texte ,Knowledge ,Connaissances ,Structured text ,Texte structuré ,[INFO]Computer Science [cs] ,Text generation ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
Every day we write --- from sending your mother a quick text to drafting a scientific article such as this thesis. The writing we do often goes hand-in-hand with automated assistance. For example, modern instant messaging software often suggests what word to write next, emails can be started with an autocomposer, and essays are improved with machine-suggested edits. These technologies are powered by years of research on text generation, a natural language processing field with the goal of automatically producing fluent, human-readable natural language. At a small scale, text generation systems can generate individual words or sentences, but have wide-reaching applications beyond that. For instance, systems for summarization, dialogue, and even the writing of entire Wikipedia articles are grounded in foundational text generation technology.Producing fluent, accurate, and useful natural language faces numerous challenges. Recent advances in text generation, principally leveraging training neural network architectures on large datasets, have significantly improved the surface-level readability of machine-generated text. However, current systems necessitate improvement along numerous axes, including generation beyond English and writing increasingly longer texts. While the field has seen rapid progress, much research focus has been directed towards the English language, where large-scale training and evaluation datasets for various tasks are readily available. Nevertheless, applications from autocorrect to autocomposition of text should be available universally. After all, by population, the majority of the world does not write in English. In this work, we create text generation systems for various tasks with the capability of incorporating languages beyond English, either as algorithms that easily extend to new languages or multilingual models encompassing up to 20 languages in one model.Beyond our work in multilingual text generation, we focus on a critical piece of generation systems: knowledge. A pre-requisite to writing well is knowing what to write. This concept of knowledge is incredibly important in text generation systems. For example, automatically writing an entire Wikipedia article requires extensive research on that article topic. The instinct to research is often intuitive --- decades ago people would have gone to a library, replaced now by the information available on the World Wide Web. However, for automated systems, the question is not only what knowledge to use to generate text, but also how to retrieve that knowledge and best utilize it to achieve the intended communication goal.We face the challenge of retrieval-based text generation. We present several techniques for identifying relevant knowledge at different scales: from local knowledge available in a paragraph to sifting through Wikipedia, and finally identifying the needle-in-the-haystack on the scale of the full web. We describe neural network architectures that can perform large-scale retrieval efficiently, utilizing pre-computation and caching mechanisms. Beyond how to retrieve knowledge, we further investigate the form the knowledge should take --- from natural language such as Wikipedia articles or text on the web to structured inputs in the form of knowledge graphs. Finally, we utilize these architectures in novel, much more challenging tasks that push the boundaries of where text generation models work well today: tasks that necessitate knowledge but also require models to produce long, structured natural language output, such as answering complex questions or writing full Wikipedia articles.; Tous les jours, nous écrivons --- qu'il s'agisse d'envoyer un texte rapide à votre mère ou de rédiger un article scientifique tel que cette thèse. Les logiciels modernes de messagerie instantanée suggèrent souvent le mot à écrire ensuite, les courriers électroniques peuvent être lancés à l'aide d'un autocomposeur et les rédactions sont améliorées grâce à des suggestions de la machine. Ces technologies sont le fruit d'années de recherche sur la génération de texte, un domaine du traitement du langage naturel dont l'objectif est de produire automatiquement un langage naturel fluide et lisible par l'homme. À petite échelle, les systèmes de génération de texte peuvent générer des mots ou des phrases isolés, mais leurs applications vont bien au-delà. Par exemple, les systèmes de résumé, de dialogue et même la rédaction d'articles entiers de Wikipédia reposent sur la technologie fondamentale de génération de texte. La production d'un langage naturel fluide, précis et utile est confrontée à de nombreux défis. Les progrès récents en matière de génération de texte, qui s'appuient principalement sur l'apprentissage d'architectures de réseaux neuronaux sur de grands ensembles de données, ont considérablement amélioré la lisibilité de surface du texte généré par la machine. Cependant, les systèmes actuels nécessitent des améliorations sur de nombreux axes, notamment la génération de textes autres que l'anglais et la rédaction de textes de plus en plus longs. Bien que le domaine ait connu des progrès rapides, la recherche s'est surtout concentrée sur la langue anglaise, où des ensembles de données d'entraînement et d'évaluation à grande échelle pour diverses tâches sont facilement disponibles. Néanmoins, les applications allant de l'autocorrection à l'autocomposition de texte devraient être disponibles universellement. Après tout, la majorité de la population mondiale n'écrit pas en anglais. Dans ce travail, nous créons des systèmes de génération de texte pour diverses tâches avec la capacité d'incorporer des langues autres que l'anglais, soit sous forme d'algorithmes qui s'étendent facilement à de nouvelles langues. Au-delà de nos travaux sur la génération de textes multilingues, nous nous concentrons sur un élément essentiel des systèmes de génération : la connaissance. Pour bien écrire, il faut d'abord savoir quoi écrire. Ce concept de connaissance est incroyablement important dans les systèmes de génération de texte. Par exemple, la rédaction automatique d'un article complet sur Wikipédia nécessite une recherche approfondie sur le sujet de l'article. L'instinct de recherche est souvent intuitif --- il y a quelques décennies, les gens se seraient rendus dans une bibliothèque, remplacés aujourd'hui par les informations disponibles sur le World Wide Web. Cependant, pour les systèmes automatisés, la question n'est pas seulement de savoir quelles connaissances utiliser pour générer du texte, mais aussi comment récupérer ces connaissances et les utiliser au mieux pour atteindre l'objectif de communication visé. Nous relevons le défi de la génération de texte basée sur la récupération. Nous présentons plusieurs techniques permettant d'identifier les connaissances pertinentes à différentes échelles : des connaissances locales disponibles dans un paragraphe à l'identification de l'aiguille dans la botte de foin à l'échelle du web complet, en passant par le passage au crible de Wikipedia. Nous décrivons des architectures de réseaux neuronaux capables d'effectuer efficacement des recherches à grande échelle, en utilisant des mécanismes de précalcul et de mise en cache. Enfin, nous utilisons ces architectures dans des tâches nouvelles, beaucoup plus difficiles, qui repoussent les limites des modèles de génération de texte qui fonctionnent bien aujourd'hui : des tâches qui nécessitent des connaissances, mais qui exigent également que les modèles produisent des résultats longs et structurés en langage naturel.
- Published
- 2021
8. Raisonnement qualitatif spatio-temporel à partir de cas textuels
- Author
-
Dufour-Lussier, Valmi, Knowledge representation, reasonning (ORPAILLEUR), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL), Université de Lorraine, Jean Lieber, Florence Le Ber, Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
algèbre qualitative ,belief revision ,Case-Base Reasoning ,temporal reasoning ,adaptation ,raisonnement à partir de cas ,révision des croyances ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,qualitative algebra ,traitement automatique des langues ,text generation ,natural language processing ,raisonnement temporel ,génération de texte - Abstract
This thesis proposes a practical model making it possible to implement a case-based reasoning system that adapts processes represented as natural language text. The use of natural language simplifies both the modelling and the execution by avoiding the need for the users to use special formalisms such as workflows to represent processes. In answer to a query describing a goal, the system shall be able to present the user with a consistent set of instructions enabling them to achieve that goal, expressed using natural language.In order to make inferences possible, a formal representation of a process ought to be attached to the text describing it. We use classical methods from natural language processing, a custom anaphora resolution mechanism and a set of annotation rules to extract events and objects from instruction texts, as well as temporal constraints represented using a qualitative interval algebra.During the adaptation stage, substitutions are performed in the source solution in such a way that it becomes a solution to the target problem. Temporal constraints are modified using a belief revision operator in order to maintain consistency with the application domain knowledge. We define two belief revision operators applicable on qualitative algebras: the first, using a best-first search algorithm, is consistent with the Alchourrón, Gärdenfors and Makinson (1985) postulates. The second is a repair propagation algorithm based on Vilain and Kautz (1986). It is faster, but may not obey all the postulates. It is shown that the reasoning process applied to processes can also be applied to different problems, such as farming problems, that can be represented using a qualitative algebra.Finally, the annotation rules are applied inversely with respect to temporal constraint changes, in a text regeneration stage. This has the effect of making minimal modifications to the text that make it consistent with the new temporal constraints. Strategies are used to maintain global consistency and anaphoric cohesion.The proposed model was applied to cooking problems, and implemented as a Facebook application, named Craqpot. Comparative tests were run, in which our solution was compared to a retrieval-only solution and a solution performing a more superficial adaptation. Our in-depth adaptation model produced texts of the same quality as the more superficial solution, but the recipes themselves were judged slightly better. The quality of the adapted recipes and texts were expectedly not as good as that of unmodified recipes and texts from the case base. Overall though, the users were as much satisfied with the deeply adapted recipes as with the original ones, and were much less satisfied with the superficially adapted recipes.; Tiu disertaĵo proponas modelon, ebligante implementar kazbazita rezonado sistemo, kiu adaptas procedurojn reprezentitajn per natura lingvo teksto, en respondo al pridemandoj de uzanto. Dum la kazoj kaj la solvoj estas en teksta formo, la adapto mem estas realigita sur retoj de tempaj limigoj esprimitaj per kvalita algebro, uzanta kredrevizio operatoro. Natura lingvo prilaborado metodoj estas uzitaj por akiri kazo reprezentoj kaj regeneri teksto bazita sur la adapto rezulton.; Cette thèse propose un modèle permettant la mise en oeuvre d'un système de raisonnement à partir de cas capable d'adapter des procédures représentées sous forme de texte en langue naturelle. L'utilisation de la langue naturelle simplifie la modélisation et l'exécution en évitant à l'utilisateur de devoir apprendre des formalismes spécialisés, tels que les flux opérationnels (ou workflows), utilisés pour représenter des procédures. En réponse à une requête décrivant un but, le système proposé devra être en mesure de présenter à l'utilisateur un ensemble d'instructions lui permettant d'atteindre le but, exprimées en langue naturelle.Pour permettre les inférences, une représentation formelle de la procédure doit être rattachée au texte qui la décrit. Nous utilisons des méthodes classiques en traitement automatique des langues ainsi qu'un mécanisme sur mesure de résolution des anaphores et un ensemble de règles d'annotations pour extraite des textes d'instructions des événements, des objets et des contraintes temporelles représentées à l'aide d'une algèbre qualitative d'intervalles.Durant l'étape d'adaptation, on procède à des substitutions dans la solution source, de façon à en faire une solution au problème cible. Pour maintenir la cohérence avec les connaissances du domaine d'application, des contraintes temporelles sont modifiées à l'aide d'un opérateur de révision des croyances. Nous définissons deux opérateurs de révision applicables aux algèbres qualitatives : le premier, utilisant un algorithme du meilleur d'abord (ou best-first search), respecte les postulats définis par Alchourrón, Gärdenfors et Makinson (1985). Le second est un algorithme de propagation de réparation inspiré par l'algorithme de Vilain et Kautz (1986). Ce dernier est plus rapide, mais ne respecte pas nécessairement tous les postulats. Il est démontré par ailleurs que l'approche employée pour les procédures peut être appliquée a d'autres types de problèmes pouvant être représentés à l'aide d'algèbres qualitatives, par exemple des problèmes agricoles.Finalement, lors d'une étape de regénération du texte, les règles d'annotation font l'objet d'une application inverse en fonction des contraintes temporelles modifiées. Cela a pour effet de modifier de façon minimale le texte pour le rendre cohérent avec les nouvelles contraintes. On emploie des stratégies additionnelles pour maintenir la cohérence globale et la cohésion anaphorique.Le modèle proposé a été appliqué à des problèmes de cuisine et mis en oeuvredans une application Facebook nommée Craqpot. Des tests comparatifs ont été exécutés pour comparer notre application à une solution fondée sur la remémoration simple ou sur une adaptation plus superficielle. Notre modèle d'adaptation en profondeur a généré des textes de la même qualité que la solution plus superficielle, mais les recettes elles-mêmes ont été jugées légèrement meilleures. Comme on peut s'y attendre, la qualité des textes et des recettes adaptées a été jugée inférieure à celle des textes de recettes non modifiés extraits de la base de cas. Globalement, par contre, les utilisateurs se sont dits autant satisfaits par les recettes adaptées en profondeur que par les recettes originales, mais beaucoup moins satisfaits des recettes adaptées superficiellement.; Hoc thesim exemplar proponit quod patefacit constitutionem ratiocinationis casu-substructionis actuare quae rationes procedendas repraesentatas per linguam naturalem in responsio ad quaesitos adaptat. Cumque casus et solutiones formam textus habent accommodatio ipsa in reticulis de exigentiis temporalibus repraesesentatis per algebram qualitatem cum operatore de recensione opinionum paragitur. Methodi de procedenti linguae naturalis adhibentur ut repraesentationes casuum acquirant et ex effectum accommodationis textum regenerent.
- Published
- 2014
9. Reasoning with Qualitative Spatial and Temporal Textual Cases
- Author
-
Dufour-Lussier, Valmi, Knowledge representation, reasonning (ORPAILLEUR), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL), Université de Lorraine, Jean Lieber, and Florence Le Ber
- Subjects
algèbre qualitative ,belief revision ,Case-Base Reasoning ,temporal reasoning ,adaptation ,raisonnement à partir de cas ,révision des croyances ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,qualitative algebra ,traitement automatique des langues ,text generation ,natural language processing ,raisonnement temporel ,génération de texte - Abstract
This thesis proposes a practical model making it possible to implement a case-based reasoning system that adapts processes represented as natural language text. The use of natural language simplifies both the modelling and the execution by avoiding the need for the users to use special formalisms such as workflows to represent processes. In answer to a query describing a goal, the system shall be able to present the user with a consistent set of instructions enabling them to achieve that goal, expressed using natural language.In order to make inferences possible, a formal representation of a process ought to be attached to the text describing it. We use classical methods from natural language processing, a custom anaphora resolution mechanism and a set of annotation rules to extract events and objects from instruction texts, as well as temporal constraints represented using a qualitative interval algebra.During the adaptation stage, substitutions are performed in the source solution in such a way that it becomes a solution to the target problem. Temporal constraints are modified using a belief revision operator in order to maintain consistency with the application domain knowledge. We define two belief revision operators applicable on qualitative algebras: the first, using a best-first search algorithm, is consistent with the Alchourrón, Gärdenfors and Makinson (1985) postulates. The second is a repair propagation algorithm based on Vilain and Kautz (1986). It is faster, but may not obey all the postulates. It is shown that the reasoning process applied to processes can also be applied to different problems, such as farming problems, that can be represented using a qualitative algebra.Finally, the annotation rules are applied inversely with respect to temporal constraint changes, in a text regeneration stage. This has the effect of making minimal modifications to the text that make it consistent with the new temporal constraints. Strategies are used to maintain global consistency and anaphoric cohesion.The proposed model was applied to cooking problems, and implemented as a Facebook application, named Craqpot. Comparative tests were run, in which our solution was compared to a retrieval-only solution and a solution performing a more superficial adaptation. Our in-depth adaptation model produced texts of the same quality as the more superficial solution, but the recipes themselves were judged slightly better. The quality of the adapted recipes and texts were expectedly not as good as that of unmodified recipes and texts from the case base. Overall though, the users were as much satisfied with the deeply adapted recipes as with the original ones, and were much less satisfied with the superficially adapted recipes.; Tiu disertaĵo proponas modelon, ebligante implementar kazbazita rezonado sistemo, kiu adaptas procedurojn reprezentitajn per natura lingvo teksto, en respondo al pridemandoj de uzanto. Dum la kazoj kaj la solvoj estas en teksta formo, la adapto mem estas realigita sur retoj de tempaj limigoj esprimitaj per kvalita algebro, uzanta kredrevizio operatoro. Natura lingvo prilaborado metodoj estas uzitaj por akiri kazo reprezentoj kaj regeneri teksto bazita sur la adapto rezulton.; Cette thèse propose un modèle permettant la mise en oeuvre d'un système de raisonnement à partir de cas capable d'adapter des procédures représentées sous forme de texte en langue naturelle. L'utilisation de la langue naturelle simplifie la modélisation et l'exécution en évitant à l'utilisateur de devoir apprendre des formalismes spécialisés, tels que les flux opérationnels (ou workflows), utilisés pour représenter des procédures. En réponse à une requête décrivant un but, le système proposé devra être en mesure de présenter à l'utilisateur un ensemble d'instructions lui permettant d'atteindre le but, exprimées en langue naturelle.Pour permettre les inférences, une représentation formelle de la procédure doit être rattachée au texte qui la décrit. Nous utilisons des méthodes classiques en traitement automatique des langues ainsi qu'un mécanisme sur mesure de résolution des anaphores et un ensemble de règles d'annotations pour extraite des textes d'instructions des événements, des objets et des contraintes temporelles représentées à l'aide d'une algèbre qualitative d'intervalles.Durant l'étape d'adaptation, on procède à des substitutions dans la solution source, de façon à en faire une solution au problème cible. Pour maintenir la cohérence avec les connaissances du domaine d'application, des contraintes temporelles sont modifiées à l'aide d'un opérateur de révision des croyances. Nous définissons deux opérateurs de révision applicables aux algèbres qualitatives : le premier, utilisant un algorithme du meilleur d'abord (ou best-first search), respecte les postulats définis par Alchourrón, Gärdenfors et Makinson (1985). Le second est un algorithme de propagation de réparation inspiré par l'algorithme de Vilain et Kautz (1986). Ce dernier est plus rapide, mais ne respecte pas nécessairement tous les postulats. Il est démontré par ailleurs que l'approche employée pour les procédures peut être appliquée a d'autres types de problèmes pouvant être représentés à l'aide d'algèbres qualitatives, par exemple des problèmes agricoles.Finalement, lors d'une étape de regénération du texte, les règles d'annotation font l'objet d'une application inverse en fonction des contraintes temporelles modifiées. Cela a pour effet de modifier de façon minimale le texte pour le rendre cohérent avec les nouvelles contraintes. On emploie des stratégies additionnelles pour maintenir la cohérence globale et la cohésion anaphorique.Le modèle proposé a été appliqué à des problèmes de cuisine et mis en oeuvredans une application Facebook nommée Craqpot. Des tests comparatifs ont été exécutés pour comparer notre application à une solution fondée sur la remémoration simple ou sur une adaptation plus superficielle. Notre modèle d'adaptation en profondeur a généré des textes de la même qualité que la solution plus superficielle, mais les recettes elles-mêmes ont été jugées légèrement meilleures. Comme on peut s'y attendre, la qualité des textes et des recettes adaptées a été jugée inférieure à celle des textes de recettes non modifiés extraits de la base de cas. Globalement, par contre, les utilisateurs se sont dits autant satisfaits par les recettes adaptées en profondeur que par les recettes originales, mais beaucoup moins satisfaits des recettes adaptées superficiellement.; Hoc thesim exemplar proponit quod patefacit constitutionem ratiocinationis casu-substructionis actuare quae rationes procedendas repraesentatas per linguam naturalem in responsio ad quaesitos adaptat. Cumque casus et solutiones formam textus habent accommodatio ipsa in reticulis de exigentiis temporalibus repraesesentatis per algebram qualitatem cum operatore de recensione opinionum paragitur. Methodi de procedenti linguae naturalis adhibentur ut repraesentationes casuum acquirant et ex effectum accommodationis textum regenerent.
- Published
- 2014
10. Prédiction du contexte droit des catégories prédicatives
- Author
-
Merlo, Aurélie, Balvet, Antonio, Marin, Rafael, Liger, François, Savoirs, Textes, Langage (STL) - UMR 8163 (STL), Université de Lille-Centre National de la Recherche Scientifique (CNRS), SAS Ergonotics, Université Lille 3, UMR STL 8163 'Savoirs, Textes, Langage', Délivrable 'Prestation, Technologie, Réseau', and ANR-07-JCJC-0085,NOMAGE,Analyse sémantique et codification lexicale des nominalisations(2007)
- Subjects
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,[INFO.INFO-CY]Computer Science [cs]/Computers and Society [cs.CY] ,syntaxe ,sémantique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Interaction Homme-Machine ,génération de texte ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Published
- 2012
11. Nomao : un moteur de recherche géolocalisé spécialisé dans la recommandation de lieux et l'e-réputation
- Author
-
Delpech, Estelle, Candillier, Laurent, and Delpech, Estelle
- Subjects
analyse d'opinion ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,InformationSystems_INFORMATIONSTORAGEANDRETRIEVAL ,ComputingMilieux_PERSONALCOMPUTING ,fouille du web ,génération de texte ,recherche d'information - Abstract
This demonstration showcases NOMAO, a geolocalized search engine which recommends places (bars, shops...) based on the user's and its friend's tastes and on the web surfers' recommendations.
- Published
- 2012
12. Génération de descriptions définies et démonstratives
- Author
-
Manuélian, Hélène, Human-machine dialogue with a significant language component (LANGUE ET DIALOGUE), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Association des doctorants en linguistique de Paris, and Loria, Publications
- Subjects
[INFO.INFO-OH] Computer Science [cs]/Other [cs.OH] ,demonstrative descriptions ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,text generation ,descriptions démonstratives ,descriptions définies ,corpus analysis ,analyse de corpus ,génération de texte ,definite descriptions - Abstract
Colloque avec actes et comité de lecture. nationale.; National audience; L'article présente une classification des descriptions définies et démonstratives en mention subséquente, basée sur leur capacité à apporter de l'information nouvelle sur le référent ou non. L'article présente ensuite les résultats d'une analyse de corpus illustrant cette classification. Enfin, il montre l'intérêt de ce type de classification et de résultats pour la génération automatique d'expressions référentielles. || The paper presents a classification of anaphoric definite and demonstrative descriptions, based on their ability to add dnew information about their referent. Then we present the results of a corpus analysis illustrating this classification. Finally, we s
- Published
- 2003
13. Interaction entre modalités sémiotiques : de l'icône à la langue
- Author
-
Pascal Vaillant, Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris Saclay (COmUE)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11), Université Paris Sud - Paris XI, and François Rastier
- Subjects
analyse sémantique ,icon ,pictogramme ,language impairment ,icône ,multimodalité ,semiotics ,semantic analysis ,pictogram ,sémiotique ,text generation ,handicap de langage ,image ,[INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC] ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,génération de texte ,multimodality ,semiotic - Abstract
The question of iconic communication is of growing importance, as the increasing mobility of persons and goods compels to find new communication forms, independent from specific languages. This work aims at understanding and describing the specific features of the iconic sign, in order to be able to propose a common frame for the analysis of both iconic and linguistic semiotic systems---a frame eventually extensible to multimodal genres. To begin with, the debates on the nature of iconicity are presented and commented. Iconicity is more than a mere resemblance between a sign and its object: it is a mode of institution of visual codes, which implements cultural conventions for representation and transcription. Later, along its lifecycle, an iconic sign is subject to diachronic erosion. A frame is proposed for the analysis of different semiotic systems; it distinguishes the notions of figure (as a minimal segment in a text), and character (as a reusable internal element of a segment), in order to clarify the transposition of the notion of the double articulation of language to non-linguistic semiotic systems. Every semiotic system, each in its genre and substratum, therefore has a "sememic system" of minimal figures and assembly rules. The process of reading an image is here apprehended as a contextual, interpretative process: the shapes of the Gestalt theory are identified as the loci of emergence of meaning in visual semiotics. Moreover, some case studies of multimodal genres (drawing and text) show how different modalities work together, by being allotted complementary parts of the semantic contents. The applicative part of this work includes the presentation of three languages of pictograms of specific interest; and the description of a computer implementation: an iconic communication software for speech-disabled people. The software analyses the semantic relations among the icons in a---possibly agrammatic---icon sequence, computes a best possible semantic interpretation, and generates it as a natural language sentence.; La question de la communication par icônes prend d'autant plus d'importance que la circulation accrue des personnes et des biens oblige aujourd'hui à des formes de communication indépendantes des langues. Cette thèse s'est fixé pour tâche de comprendre et de décrire le signe iconique dans sa spécificité, afin de pouvoir proposer une grille d'analyse commune à celui-ci et à la langue, extensible aux genres multimodaux. Dans un premier temps, les débats portant sur la nature de l'iconicité sont discutés. L'iconicité est plus qu'une simple ressemblance entre un signe et son objet : c'est un mode d'institution de code visuel qui met en oeuvre des conventions culturelles de représentation et de transcription. Le signe iconique est par la suite soumis à l'érosion diachronique. Une grille d'analyse des différents systèmes sémiotiques est ensuite proposée ; elle distingue les notions de figure comme segment minimal d'un texte, et de caractère comme élément interne, ce qui permet de clarifier la transposition de la notion de double articulation aux sémiotiques non-linguistiques. Les systèmes de signes iconiques ont ainsi, chacun dans son genre particulier, un « système sémiologique » de figures minimales et de règles d'assemblage. Une vision de la lecture de l'image comme processus interprétatif et contextuel est exposée : les formes de la Gestalttheorie y sont identifiées aux lieux d'émergence du sens. Des études de cas de genres multimodaux (dessin et texte) montrent en outre comment les différentes modalités se partagent le contenu sémantique. La partie applicative de la thèse comporte une présentation descriptive de trois langages de pictogrammes d'une importance particulière ; et une implantation informatique d'un logiciel de communication par icônes pour handicapés du langage. Ce logiciel procède à une analyse sémantique de séquences d'icônes agrammaticales, et génère ensuite la meilleure interprétation calculée, sous la forme d'un message en français.
- Published
- 1997
14. Lexical Functions of Explanatory Combinatorial Dictionary for Lexicalization in Text Generation
- Author
-
Alonso Ramos, Margarita, Tutin, Agnès, Lapalme, Guy, Université de la Coruña, LInguistique et DIdactique des Langues Étrangères et Maternelles (LIDILEM), Université Stendhal - Grenoble 3, Laboratoire d'Informatique Cognitive et d'Environnements de Formation - Téluq, l'université à distance de l'UQAM (Centre LICEF - TÉLUQ), Université du Québec à Montréal = University of Québec in Montréal (UQAM), P. Saint-Dizier & E. Viegas, and Tutin, Agnès
- Subjects
TAL ,collocations ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,génération de texte ,ComputingMilieux_MISCELLANEOUS - Abstract
International audience
- Published
- 1995
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.