1. Gérer le 'bruit' dans les corpus en textométrie
- Author
-
Pincemin, Bénédicte, Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Centre National de la Recherche Scientifique (CNRS)-Université Clermont Auvergne (UCA), Université Grenoble Alpes, Università di Roma La Sapienza, Projet Textométrie, Projet BFM : Base de français médiéval, and ANR-17-CE38-0010,ANTRACT,Analyse Transdisciplinaire des Actualités filmées (1945-1969)(2017)
- Subjects
Loi des grands nombres ,[SHS.STAT]Humanities and Social Sciences/Methods and statistics ,Analyse factorielle des correspondances ,ADT ,Corpus audiovisuel ,Analyse statistique des données textuelles ,Logiciel TXM ,Analyse quantitative ,Annotation de corpus ,Oral représenté ,Linguistique de corpus ,Linguistique diachronique ,Textométrie ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Humanités numériques - Abstract
National audience; L'exposé rend compte du cheminement adopté pour gérer différents types de "bruit" dans des corpus de données textuelles, tels que des erreurs d'étiquetage morphosyntaxique automatique, des erreurs de transcription automatique de la parole, ou encore une analyse portant sur des informations éparses et variables. Les nouvelles possibilités d'annotation semi-automatique des corpus offrent une voie séduisante pour corriger et affiner ses données, mais une réflexion préalable est nécessaire pour que cette annotation soit fructueuse. Finalement, en pratique, il s'agit peut-être moins de chercher à éliminer tout bruit, que d'apprivoiser le bruit : apprendre à oeuvrer avec lui à toutes les étapes du travail de recherche.
- Published
- 2023