Back to Search Start Over

Annotation-based Digital Text Corpora Analysis within the TXM Platform

Authors :
Heiden, Serge
Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM)
École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML)
Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS)
DII– Department of Enterprise Engineering 'Mario Lucertini' Tor Vergata University
DSS– Department of Statistical Sciences, Sapienza University, Rome
Domenica Fioredistella IEZZI
Livia CELARDO
Michelangelo MISURACA
ANR-15-CE38-0008,DEMOCRAT,DEscription et MOdélisation des Chaînes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique(2015)
ANR-14-FRAL-0006,PaLaFra,Le PAssage du LAtin au FRAnçais: constitution et analyse d'un corpus numérique latino-français(2014)
École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML)
Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet [Saint-Étienne] (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS)
Heiden, Serge
DEscription et MOdélisation des Chaînes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique - - DEMOCRAT2015 - ANR-15-CE38-0008 - AAPG2015 - VALID
Programme franco-allemand en Sciences humaines et sociales - Le PAssage du LAtin au FRAnçais: constitution et analyse d'un corpus numérique latino-français - - PaLaFra2014 - ANR-14-FRAL-0006 - FRAL - VALID
Domenica Fioredistella IEZZI, Livia CELARDO, Michelangelo MISURACA
Source :
Fourteenth International Conference on the Statistical Analysis of Textual Data, 14th International Conference on the Statistical Analysis of Textual Data / 14es Journées internationales d'Analyse statistique des Données Textuelles (JADT 2018), 14th International Conference on the Statistical Analysis of Textual Data / 14es Journées internationales d'Analyse statistique des Données Textuelles (JADT 2018), DII– Department of Enterprise Engineering “Mario Lucertini” Tor Vergata University; DSS– Department of Statistical Sciences, Sapienza University, Rome, Jun 2018, Rome, Italy. pp.367-374
Publication Year :
2018
Publisher :
HAL CCSD, 2018.

Abstract

This paper presents new developments in the TXM textual corpora analysis platform (http://textometrie.org)towards direct text annotation functionalities. Some annotations are related to a web based external historicontology called SyMoGIH and others to co-reference information between words or to word properties like partof speech or lemma.The paper discusses the methodological stakes of unifying in a single framework the production and the analysisthose annotations with the traditional ones already available in TXM corresponding to the XML markup of thetext sources and to the linguistic annotations automatically added to texts by NLP tools.<br />Cet article présente les nouveaux développements de la plateforme d'analyse de corpus textuels TXM (http://textometrie.org) vers des fonctionnalités d’annotation textuelle directe. Certaines annotations sont liées à une ontologie historique externe appelée SyMoGIH, d’autres à l’encodage de liens de co-référence entre mots d’un texte et les dernières à des propriétés de mots telles que leur catégorie grammaticale ou leur lemme.L’article discute les enjeux méthodologiques d’une unification de la production et de l’analyse d’annotations au sein de la plateforme au regard des systèmes d’annotation traditionnels déjà exploités par TXM comme le balisage XML TEI des sources textuelles et les annotations linguistiques ajoutées automatiquement aux textes par les outils de TAL.

Details

Language :
English
Database :
OpenAIRE
Journal :
Fourteenth International Conference on the Statistical Analysis of Textual Data, 14th International Conference on the Statistical Analysis of Textual Data / 14es Journées internationales d'Analyse statistique des Données Textuelles (JADT 2018), 14th International Conference on the Statistical Analysis of Textual Data / 14es Journées internationales d'Analyse statistique des Données Textuelles (JADT 2018), DII– Department of Enterprise Engineering “Mario Lucertini” Tor Vergata University; DSS– Department of Statistical Sciences, Sapienza University, Rome, Jun 2018, Rome, Italy. pp.367-374
Accession number :
edsair.dedup.wf.001..05ce398739e9bcb842db1158f2ac00e5