Author: "Pierrejean, Bénédicte" / Language: english - Searchworks@Jio Institute Digital Library Search Results

Your search keyword '"Pierrejean, Bénédicte"' showing total 4 results

Start Over Author "Pierrejean, Bénédicte" Language english

4 results on '"Pierrejean, Bénédicte"'

1. Qualitative Evaluation of Word Embeddings: Investigating the Instability in Neural-Based Models

Author: Pierrejean, Bénédicte, Cognition, Langues, Langage, Ergonomie (CLLE-ERSS), Université Bordeaux Montaigne-École pratique des hautes études (EPHE), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Université Toulouse - Jean Jaurès (UT2J)-Centre National de la Recherche Scientifique (CNRS), Université Toulouse 2 - Jean Jaurès, Ludovic Tanguy, and Pierrejean, Bénédicte
Subjects: [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL], Word embeddings, Plongements lexicaux, [SHS.LANGUE]Humanities and Social Sciences/Linguistics, Evaluation, [SHS.LANGUE] Humanities and Social Sciences/Linguistics, Stability, Stabilité, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Abstract: Distributional semantics has been revolutionized by neural-based word embeddings methods such as word2vec that made semantics models more accessible by providing fast, efficient and easy to use training methods. These dense representations of lexical units based on the unsupervised analysis of large corpora are more and more used in various types of applications. They are integrated as the input layer in deep learning models or they are used to draw qualitative conclusions in corpus linguistics. However, despite their popularity, there still exists no satisfying evaluation method for word embeddings that provides a global yet precise vision of the differences between models. In this PhD thesis, we propose a methodology to qualitatively evaluate word embeddings and provide a comprehensive study of models trained using word2vec. In the first part of this thesis, we give an overview of distributional semantics evolution and review the different methods that are currently used to evaluate word embeddings. We then identify the limits of the existing methods and propose to evaluate word embeddings using a different approach based on the variation of nearest neighbors. We experiment with the proposed method by evaluating models trained with different parameters or on different corpora. Because of the non-deterministic nature of neural-based methods, we acknowledge the limits of this approach and consider the problem of nearest neighbors instability in word embeddings models. Rather than avoiding this problem we embrace it and use it as a mean to better understand word embeddings. We show that the instability problem does not impact all words in the same way and that several linguistic features are correlated. This is a step towards a better understanding of vector-based semantic models., La sémantique distributionnelle a récemment connu de grandes avancées avec l’arrivée des plongements de mots (word embeddings) basés sur des méthodes neuronales qui ont rendu les modèles sémantiques plus accessibles en fournissant des méthodes d’entraînement rapides, efficaces et faciles à utiliser. Ces représentations denses d’unités lexicales basées sur l’analyse non supervisée de gros corpus sont de plus en plus utilisées dans diverses applications. Elles sont intégrées en tant que première couche dans les modèles d’apprentissage profond et sont également utilisées pour faire de l’observation qualitative en linguistique de corpus. Cependant, malgré leur popularité, il n’existe toujours pas de méthode d’évaluation des plongements de mots qui donne à la fois une vision globale et précise des différences existant entre plusieurs modèles.Dans cette thèse, nous proposons une méthodologie pour évaluer les plongements de mots. Nous fournissons également une étude détaillée des modèles entraînés avec la méthode word2vec.Dans la première partie de cette thèse, nous donnons un aperçu de l’évolution de la sémantique distributionnelle et passons en revue les différentes méthodes utilisées pour évaluer les plongements de mots. Par la suite, nous identifions les limites de ces méthodes et proposons de comparer les plongements de mots en utilisant une approche basée sur les voisins sémantiques. Nous expérimentons avec cette approche sur des modèles entrainés avec différents paramètres ou sur différents corpus. Étant donné la nature non déterministe des méthodes neuronales, nous reconnaissons les limites de cette approche et nous concentrons par la suite sur le problème de l’instabilité des voisins sémantiques dans les modèles de plongement de mots. Plutôt que d’éviter ce problème, nous choisissons de l’utiliser comme indice pour mieux comprendre les plongements de mots. Nous montrons que le problème d’instabilité n’affecte pas tous les mots de la même manière et que plus plusieurs traits linguistiques permettent d’expliquer une partie de ce phénomène. Ceci constitue un pas vers une meilleure compréhension du fonctionnement des modèles sémantiques vectoriels.
Published: 2020

2. Qualitative evaluation of word embeddings : investigating the instability in neural-based models

Author: Pierrejean, Bénédicte, Cognition, Langues, Langage, Ergonomie (CLLE), École pratique des hautes études (EPHE), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Université Toulouse - Jean Jaurès (UT2J)-Centre National de la Recherche Scientifique (CNRS), Université Toulouse le Mirail - Toulouse II, Ludovic Tanguy, Cognition, Langues, Langage, Ergonomie (CLLE-ERSS), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Université Toulouse - Jean Jaurès (UT2J)-Université Bordeaux Montaigne-Centre National de la Recherche Scientifique (CNRS), Université Toulouse 2 - Jean Jaurès, Université Bordeaux Montaigne-École pratique des hautes études (EPHE), and STAR, ABES
Subjects: Distributional semantics, Word embeddings, Évaluation qualitative, Plongements lexicaux, [SHS.LANGUE]Humanities and Social Sciences/Linguistics, Evaluation, Qualitative evaluation, [SHS.LANGUE] Humanities and Social Sciences/Linguistics, Stability, Stabilité, Sémantique distributionnelle, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Abstract: Distributional semantics has been revolutionized by neural-based word embeddings methods such as word2vec that made semantics models more accessible by providing fast, efficient and easy to use training methods. These dense representations of lexical units based on the unsupervised analysis of large corpora are more and more used in various types of applications. They are integrated as the input layer in deep learning models or they are used to draw qualitative conclusions in corpus linguistics. However, despite their popularity, there still exists no satisfying evaluation method for word embeddings that provides a global yet precise vision of the differences between models. In this PhD thesis, we propose a methodology to qualitatively evaluate word embeddings and provide a comprehensive study of models trained using word2vec. In the first part of this thesis, we give an overview of distributional semantics evolution and review the different methods that are currently used to evaluate word embeddings. We then identify the limits of the existing methods and propose to evaluate word embeddings using a different approach based on the variation of nearest neighbors. We experiment with the proposed method by evaluating models trained with different parameters or on different corpora. Because of the non-deterministic nature of neural-based methods, we acknowledge the limits of this approach and consider the problem of nearest neighbors instability in word embeddings models. Rather than avoiding this problem we embrace it and use it as a mean to better understand word embeddings. We show that the instability problem does not impact all words in the same way and that several linguistic features are correlated. This is a step towards a better understanding of vector-based semantic models., La sémantique distributionnelle a récemment connu de grandes avancées avec l’arrivée des plongements de mots (word embeddings) basés sur des méthodes neuronales qui ont rendu les modèles sémantiques plus accessibles en fournissant des méthodes d’entraînement rapides, efficaces et faciles à utiliser. Ces représentations denses d’unités lexicales basées sur l’analyse non supervisée de gros corpus sont de plus en plus utilisées dans diverses applications. Elles sont intégrées en tant que première couche dans les modèles d’apprentissage profond et sont également utilisées pour faire de l’observation qualitative en linguistique de corpus. Cependant, malgré leur popularité, il n’existe toujours pas de méthode d’évaluation des plongements de mots qui donne à la fois une vision globale et précise des différences existant entre plusieurs modèles.Dans cette thèse, nous proposons une méthodologie pour évaluer les plongements de mots. Nous fournissons également une étude détaillée des modèles entraînés avec la méthode word2vec.Dans la première partie de cette thèse, nous donnons un aperçu de l’évolution de la sémantique distributionnelle et passons en revue les différentes méthodes utilisées pour évaluer les plongements de mots. Par la suite, nous identifions les limites de ces méthodes et proposons de comparer les plongements de mots en utilisant une approche basée sur les voisins sémantiques. Nous expérimentons avec cette approche sur des modèles entrainés avec différents paramètres ou sur différents corpus. Étant donné la nature non déterministe des méthodes neuronales, nous reconnaissons les limites de cette approche et nous concentrons par la suite sur le problème de l’instabilité des voisins sémantiques dans les modèles de plongement de mots. Plutôt que d’éviter ce problème, nous choisissons de l’utiliser comme indice pour mieux comprendre les plongements de mots. Nous montrons que le problème d’instabilité n’affecte pas tous les mots de la même manière et que plus plusieurs traits linguistiques permettent d’expliquer une partie de ce phénomène. Ceci constitue un pas vers une meilleure compréhension du fonctionnement des modèles sémantiques vectoriels.
Published: 2020

3. Le projet EvoLex : Aller plus loin dans l'étude de la fluence et de l'accès au lexique (2018)

Author: de Boissezon, Xavier, Danet, Lola, Fabre, Cécile, Farinas, Jérôme, Gaume, Bruno, Hathout, Nabil, Ho-Dac, Lydia-Mai, Jucla, Mélanie, Peran, Patrice, Pierrejean, Bénédicte, Pinquier, Julien, Tanguy, Ludovic, Toulouse Neuro Imaging Center (ToNIC), Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Institut National de la Santé et de la Recherche Médicale (INSERM)-Hôpital Purpan [Toulouse], CHU Toulouse [Toulouse]-CHU Toulouse [Toulouse], Cognition, Langues, Langage, Ergonomie (CLLE-ERSS), École pratique des hautes études (EPHE), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Université Toulouse - Jean Jaurès (UT2J)-Université Bordeaux Montaigne-Centre National de la Recherche Scientifique (CNRS), Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio (IRIT-SAMoVA), Institut de recherche en informatique de Toulouse (IRIT), Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées, Unité de Recherche Interdisciplinaire Octogone-Lordat (Octogone-Lordat), Université Toulouse - Jean Jaurès (UT2J), Toulouse Mind and Brain Institute (TMBI), CHU Purpan, pavillon Baudot, Toulouse, France, URI Octogone-Lordat (EA4156), Maison de la Recherche Université de Toulouse 2 Jean-Jaurès, Toulouse, France, Köpke, Barbara, Giraudo, Hélène, and Grélaud, Françoise
Subjects: TAL, Evolex, [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL], Traitement Automatique des Langues, [SCCO.LING] Cognitive science/Linguistics, [SCCO.LING]Cognitive science/Linguistics, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Abstract: Présentation orale de travaux représentatifs; International audience; Le projet Evolex résulte d'une rencontre entre trois disciplines : la psycholinguistique, l'informatique et la linguistique (notamment le Traitement Automatique des Langues, TAL). L'objectif principal du projet concerne l'étude de la fluence et de l'accès au lexique. Il s'agit de mieux comprendre l'organisation du lexique mental des locuteurs, via des mesures de fluence qui reflètent la rapidité avec laquelle le locuteur accède aux informations présentes dans son lexique mental et associe ces informations les unes avec les autres. A terme, il s'agit d'utiliser ces méthodes pour caractériser finement des troubles touchant au niveau lexical. Il est indispensable pour cela d'opérationnaliser au maximum la technique proposée et de disposer de mesures permettant d'échelonner, de caractériser les données récoltées. C'est ainsi que les domaines de l'informatique et du TAL interviennent dans le projet EvoLex. L'informatisation des tâches linguistiques (en ayant recours à la reconnaissance vocale) a permis une automatisation maximale du protocole de recueil des données. D'autre part, des mesures basées sur des modèles et techniques de sémantique distributionnelle ont été développés et éprouvés pour analyser et échelonner automatiquement les données récoltées.
Published: 2018

4. Investigating the stability of concrete nouns in word embeddings

Author: Ludovic Tanguy, Bénédicte Pierrejean, Cognition, Langues, Langage, Ergonomie (CLLE-ERSS), École pratique des hautes études (EPHE), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Université Toulouse - Jean Jaurès (UT2J)-Université Bordeaux Montaigne-Centre National de la Recherche Scientifique (CNRS), Equipe de Recherche en Syntaxe et Sémantique (ERSS), Université Bordeaux Montaigne-Université Toulouse - Jean Jaurès (UT2J)-Centre National de la Recherche Scientifique (CNRS), and Pierrejean, Bénédicte
Subjects: Degree (graph theory), Computer science, business.industry, Stability (learning theory), 02 engineering and technology, computer.software_genre, Concreteness, [SHS.LANGUE] Humanities and Social Sciences/Linguistics, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL], [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL], 020204 information systems, Noun, 0202 electrical engineering, electronic engineering, information engineering, 020201 artificial intelligence & image processing, Word2vec, Artificial intelligence, [SHS.LANGUE]Humanities and Social Sciences/Linguistics, Set (psychology), business, computer, Word (computer architecture), Reliability (statistics), Natural language processing
Abstract: International audience; We know that word embeddings trained using neural-based methods (such as word2vec SGNS) are sensitive to stability problems and that across two models trained using the exact same set of parameters, the nearest neighbors of a word are likely to change. All words are not equally impacted by this internal instability and recent studies have investigated features influencing the stability of word embeddings. This stability can be seen as a clue for the reliability of the semantic representation of a word. In this work, we investigate the influence of the degree of concreteness of nouns on the stability of their semantic representation. We show that for English generic corpora, abstract words are more affected by stability problems than concrete words. We also found that to a certain extent, the difference between the degree of concreteness of a noun and its nearest neighbors can partly explain the stability or instability of its neighbors.
Published: 2019

Catalog

Books, media, physical & digital resources

See catalog results

Searchworks

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources

Refine your results

4 results on '"Pierrejean, Bénédicte"'

1. Qualitative Evaluation of Word Embeddings: Investigating the Instability in Neural-Based Models

2. Qualitative evaluation of word embeddings : investigating the instability in neural-based models

3. Le projet EvoLex : Aller plus loin dans l'étude de la fluence et de l'accès au lexique (2018)

4. Investigating the stability of concrete nouns in word embeddings

Catalog

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Search

Search Constraints

Refine your results

Search Limiters

Topic

Publication Year Range

Database

4 results on '"Pierrejean, Bénédicte"'

Search Results

Catalog

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources