Start Over

Recherche de signaux faibles dans un contexte d’investigation numérique

Authors :: Maitre, Julien
Ménard, Michel
Bouju, Alain
Chiron, Guillaume
Laboratoire Informatique, Image et Interaction - EA 2118 (L3I)
Université de La Rochelle (ULR)
ISTE Editions
Maitre, Julien
Source :: Conférence Internationale H2PTM-Hypertextes et Hypermédias. Produits, Outils et Méthodes, Conférence Internationale H2PTM-Hypertextes et Hypermédias. Produits, Outils et Méthodes, Oct 2019, Montbéliard, France. pp.200-215
Publication Year :: 2019
Publisher :: HAL CCSD, 2019.
Abstract: This paper is related to a wide project aiming at discoving from different streams of information (i.e. daily publication from the Internet), weak signals possibly sent by whistleblowers. The current study presented in this paper tackles the particular problem of clustering topics at multi-levels from multiple documents, and then extracting meaningful descriptors, such as weighted lists of words. In this context, we present a novel idea combining LDA (in charge clustering) and Word2vec (providing a consistency metric regarding the partitioned topics) as potential method for limiting the "a priori" number of cluster K usually needed in classical partitioning approaches. We proposed 2 implementations of this idea, respectively able to: (1) finding the optimal K for LDA; (2) gathering the optimal clusters from different levels of clustering.<br />L'étude présentée s'inscrit dans le cadre du développement d'une plateforme d'analyse automatique de documents associée à un service sécurisé lanceurs d'alerte, de type GlobalLeaks, focalisé sur la révélation de faits/événements/actions en lien avec des problématiques environnementales. Le présent article aborde le problème particulier du regroupement de sujets à plusieurs niveaux à partir de documents multiples, puis de l'extraction de descripteurs significatifs, tels que des listes pondérées de mots. Dans ce contexte, nous présentons une nouvelle idée combinant LDA (en charge du clustering) et Word2vec (fournissant une métrique de cohérence concernant les sujets partitionnés) comme méthode potentielle pour limiter le nombre "a priori" de cluster K habituellement nécessaire dans les approches classiques du partitionnement. Nous avons proposé 2 mises en œuvre de cette idée, respectivement en mesure de : (1) trouver le K optimal pour LDA ; (2) rassembler les clusters optimaux de différents niveaux de clustering.

Subjects :: [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing
Plongement de mots
LDA
Topic Modeling
Regroupement
Word Embeddings
[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing
Word2Vec
Modèle de thèmes
Clustering

Details

Language :: French
Database :: OpenAIRE
Journal :: Conférence Internationale H2PTM-Hypertextes et Hypermédias. Produits, Outils et Méthodes, Conférence Internationale H2PTM-Hypertextes et Hypermédias. Produits, Outils et Méthodes, Oct 2019, Montbéliard, France. pp.200-215
Accession number :: edsair.dedup.wf.001..bb4d161c7c23a52386386b7c2090aaf4

Tools

Email
Cite

Printer

Authors Abstract Subjects Details

Searchworks

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources

Recherche de signaux faibles dans un contexte d’investigation numérique

Abstract

Subjects

Details

Tools

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Recherche de signaux faibles dans un contexte d’investigation numérique

Abstract

Subjects

Details

Tools

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources