1. Analyse exploratoire et classification de textes
- Author
-
Florian Barbaro and Barbaro, Florian
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,model selection ,analyse exploratoire de textes ,données de grande dimension ,finance ,high dimensional data ,pénalisation l 1 ,[INFO.INFO-DS] Computer Science [cs]/Data Structures and Algorithms [cs.DS] ,regroupement ,NLP ,classification ,l 1 penalization ,exploratory text analysis ,mélanges de lois de von Mises-Fisher ,sélection de modèles ,[MATH.MATH-ST] Mathematics [math]/Statistics [math.ST] ,mixtures distribution of von Mises-Fisher ,clustering - Abstract
In recent years, Natural Language Processing (NLP) has become very popular withthe scientific community and also with industry because of the numerous opportunitiesit offers. Indeed, nowadays we are submerged by information and this raises the questionof its analysis. This is the direction we have taken in our thesis, namely how to makethe result of a classification easily analysable and understandable.Chapter 1 provides a contextualisation of the thesis and its interest. In addition, wepresent its structure and a synthetic summary of the thesis’ work.Chapter 2 is here to recall the state of the art of text representation methods, someadapted modelling methods, as well as models for directional data.Then comes Chapter 3, which presents the data that has followed us throughout thethesis. This dataset, which we built, is freely available, contains the 8-K reports of theS&P 500 companies for 2015 to 2019.In Chapter 4, inspired by some papers that worked on 8-K, we try to predict themovement of a financial asset according to the publication of an 8-K report. Differenttechniques are tried, both for text representation and classification, and we show in ourcase that increasing the complexity of the models does not necessarily improve the results.Chapter 5 follows on from the previous chapter, in which we focus on the compari-son of text representations for exploratory analysis using a classification algorithm. Ouraim here is to analyse several text representations and to propose new ways of visualisation for an easier understanding of classification.To continue in this direction, in Chapter 6, we propose a mixture model of vonMises-Fisher distribution penalized by the l 1 norm. This leads to sparse prototypes thatimprove clustering interpretability. We derive an EM algorithm for this model and illustrate the interest of our approach on a real data set. Moreover, we propose a path-following method that allows, in adequacy with model selection criteria, to automatically select the penalization parameter., Le traitement automatique des langues (NLP) a connu ces dernières années un grandengouement auprès de la communauté scientifique mais aussi des industriels pour lesnombreuses opportunités offertes. En effet, nous sommes, de nos jours, submergés parles informations et par les différentes façons de les analyser. C’est dans cette voie quenous avons orienté notre thèse, à savoir comment rendre le résultat d’une classificationfacilement analysable et compréhensible.Le Chapitre 1 permettra une contextualisation de la thèse et de son intérêt tout eny présentant sa structure. De plus, un résumé synthétique des travaux de la thèse y estprésenté.Le Chapitre 2 présentera l’état de l’art des modèles de représentation de textes uti-lisés, quelques méthodes de modélisations adaptées ainsi que des modèles pour les don-nées directionnelles.Puis, le Chapitre 3 présentera les données qui nous ont accompagné tout au longde la thèse. Ce jeu de données, que nous avons constitué et qui est disponible librement,contient les rapports 8-K des entreprises du S&P 500 pour les années 2015 à 2019.Dans le Chapitre 4, en nous inspirant de certains articles traitant des 8-K, nousessayerons de prédire le mouvement d’un actif financier selon la publication d’un rapport8-K. Différentes techniques sont testées, tant pour la représentation de textes que pourla classification, et nous démontrerons que la complexification des modèles n’amélioreque très légèrement les résultats de ladite classification.Ensuite, dans le Chapitre 5, nous nous concentrerons sur la comparaison de représentations de textes en vue d’une analyse exploratoire à l’aide d’un algorithme declassification. Notre but est d’analyser plusieurs représentations de textes et de proposerde nouvelles manières de visualiser pour mieux appréhender la classification.De même, dans le Chapitre 6, nous proposerons un modèle de mélange de distribution de von Mises-Fisher pénalisé par la norme l 1 . Ceci permet d’améliorer l’interprétabilité des clusters obtenus grâce notamment à la parcimonie des moyennes directionnelles.Nous dériverons un algorithme EM pour ce modèle et nous illustrerons l’intérêt de notreapproche sur plusieurs jeux de données réelles. De plus, nous proposerons une méthodede suivi de chemin qui permet en adéquation de critères de sélection de modèles, desélectionner automatiquement le paramètre de pénalisation.
- Published
- 2022