Back to Search Start Over

Détection et extraction de néologismes sémantiques spécialisés : une approche au moyen de classification automatique de documents avec des stratégies d'apprentissage profond

Authors :
Torres Rivera, Andrés
STAR, ABES
Laboratoire Informatique d'Avignon (LIA)
Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI
Université d'Avignon
Universitat Pompeu Fabra (Barcelone, Espagne)
Juan-Manuel Torres-Moreno
Rosa Estopà
Centre d'Enseignement et de Recherche en Informatique - CERI-Avignon Université (AU)
Source :
Technology for Human Learning. Université d'Avignon; Universitat Pompeu Fabra (Barcelone, Espagne), 2019. Español. ⟨NNT : 2019AVIG0232⟩
Publication Year :
2019
Publisher :
HAL CCSD, 2019.

Abstract

Dins del camp de la neologia, s’han dissenyat diferents aproximacions metodològics pera la detecció i extracció de neologismes semàntics amb tècniques com la desambiguaciósemàntica i el modelatge de temes, però encara no existeix cap proposta d’un sistema pera la detecció d’aquestes unitats. A partir d’un estudi detallat sobre els supòsits teòricsnecessaris per identificar i descriure els neologismes semàntics, en aquesta tesi proposemel desenvolupament d’una aplicació per identificar i buidar aquestes unitats mitjançantestratègies estadístiques, de mineria de dades i d’aprenentatge automàtic. La metodologiaque es planteja es basa en el tractament del procés de detecció i extracció com un problemade classificació, que consisteix a analitzar la concordança de temes entre el campsemàntic del significat principal d’una paraula i el text en què es troba aquesta paraula.Per constituir l’arquitectura del sistema proposat, analitzem cinc mètodes de classificacióautomàtica supervisada i tres models per a la generació de representacions vectorials deparaules mitjançant aprenentatge profund. El nostre corpus d’anàlisi està format pels neologismessemàntics de l’àmbit de la informàtica pertanyents a la base de dades de l’Observatoride Neologia de la Universitat Pompeu Fabra, que s’han registrat des de 1989 fins a2015. Utilitzem aquest corpus per avaluar els diferents mètodes que implementa el sistema:classificació automàtica, extracció de paraules a partir de contextos breus i generacióde llistes de paraules similars. Aquesta primera aproximació metodològica busca establirun marc de referència en matèria de detecció i extracció de neologismes semàntics.<br />In the field of neology, different methodological approaches for the detection and extractionof semantic neologisms have been developed using strategies such as word sensedisambiguation and topic modeling, but there is still not a proposal for a system for thedetection of these units. Beginning from a detailed study on the necessary theoreticalassumptions required to delimit and describe semantic neologisms, in this thesis, we proposethe development of an application to identify and extract said units using statistical,data mining and machine learning strategies. The proposed methodology is based ontreating the process of detection and extraction as a classification task, which consists onanalyzing the concordance of topics between the semantic field from the main meaningof a word and the text where it is found. To build the architecture of the proposed system,we analyzed five automatic classification methods and three deep learning based wordembedding models. Our analysis corpus is composed of the semantic neologisms of thecomputer science field belonging to the database of the Observatory of Neology of thePompeu Fabra University, which have been registered from 1989 to 2015. We used thiscorpus to evaluate the different methods that our system implements: automatic classification,keyword extraction from short contexts, and similarity list generation. This firstmethodological approach aims to establish a framework of reference in terms of detectionand extraction of semantic neologisms.<br />En el campo de la neología, se han desarrollado diferentes acercamientos metodológicospara la detección y extracción de neologismos semánticos empleando estrategias comola desambiguación semántica y el modelado de temas, pero todavía no existe una propuestade un sistema para la detección de estas unidades. A partir de un estudio detalladosobre los supuestos teóricos necesarios para delimitar y describir los neologismos semánticos,en esta tesis proponemos el desarrollo de una aplicación para identificar y vaciardichas unidades mediante estrategias estadísticas, de minería de datos y de aprendizajeautomático. La metodología planteada se basa en el tratamiento del proceso de deteccióny extracción como un problema de clasificación, que consiste en analizar la concordanciade temas entre el campo semántico del significado principal de una palabra y el texto enel que se encuentra. Para constituir la arquitectura del sistema propuesto, analizamos cincométodos de clasificación automática supervisada y tres modelos para la generación derepresentaciones vectoriales de palabras mediante aprendizaje profundo. Nuestro corpusde análisis está compuesto por los neologismos semánticos del ámbito de la informáticapertenecientes a la base datos del Observatorio de Neologia de la Universitat Pompeu Fabra,que han sido registrados desde 1989 hasta 2015. Utilizamos este corpus para evaluarlos distintos métodos que implementa el sistema: clasificación automática, extracción depalabras a partir de contextos cortos y generación de listas de palabras similares. Esteprimer acercamiento metodológico busca establecer un marco de referencia en materia dedetección y extracción de neologismos semánticos.<br />Dans le domaine de la néologie, différentes approches méthodologiques ont été développées pour la détection et l’extraction de néologismes sémantiques. Ces approches utilisent des stratégies telles que la désambiguïsation sémantique et la modélisation thématique,mais il n’existe aucun système complet de détection de néologismes sémantiques.Ainsi, nous proposons dans cette thèse le développement des algorithmes qui permettent d’identifier et d’extraire les néologismes sémantiques au moyen de méthodes statistiques,d’extraction d’information et d’apprentissage automatique. La méthodologie proposée est basée sur le traitement du processus de détection et d’extraction en tant que problème de classification. Il consiste à analyser la proximité des thèmes entre le champ sémantique de la signification principale d’un terme et son contexte. Pour la construction du système nous avons étudié cinq méthodes de classification automatique supervisée et trois modèles pour la génération de représentations vectorielles de mots par apprentissage profonde. Le corpus d’analyse est composé de néologismes sémantiques du domaine informatique appartenant à la base de données de l’Observatoire de Néologie de l’Université Pompeu Fabra, enregistrés de 1989 à 2015. Nous utilisons ce corpus pour évaluer les différentes méthodes mises en oeuvre par le système : classification automatique, extraction de mots à partir de contextes courts et génération de listes de mots similaires. Cette première approche méthodologique cherche à établir un cadre de référence en termes de détection et d’extraction de néologismes sémantiques.

Details

Language :
Spanish; Castilian
Database :
OpenAIRE
Journal :
Technology for Human Learning. Université d'Avignon; Universitat Pompeu Fabra (Barcelone, Espagne), 2019. Español. ⟨NNT : 2019AVIG0232⟩
Accession number :
edsair.dedup.wf.001..fb616d16d1270921c30df1f4e12b9711