Back to Search
Start Over
Annotation-based Digital Text Corpora Analysis within the TXM Platform
- Source :
- Fourteenth International Conference on the Statistical Analysis of Textual Data, 14th International Conference on the Statistical Analysis of Textual Data / 14es Journées internationales d'Analyse statistique des Données Textuelles (JADT 2018), 14th International Conference on the Statistical Analysis of Textual Data / 14es Journées internationales d'Analyse statistique des Données Textuelles (JADT 2018), DII– Department of Enterprise Engineering “Mario Lucertini” Tor Vergata University; DSS– Department of Statistical Sciences, Sapienza University, Rome, Jun 2018, Rome, Italy. pp.367-374
- Publication Year :
- 2018
- Publisher :
- HAL CCSD, 2018.
-
Abstract
- This paper presents new developments in the TXM textual corpora analysis platform (http://textometrie.org)towards direct text annotation functionalities. Some annotations are related to a web based external historicontology called SyMoGIH and others to co-reference information between words or to word properties like partof speech or lemma.The paper discusses the methodological stakes of unifying in a single framework the production and the analysisthose annotations with the traditional ones already available in TXM corresponding to the XML markup of thetext sources and to the linguistic annotations automatically added to texts by NLP tools.<br />Cet article présente les nouveaux développements de la plateforme d'analyse de corpus textuels TXM (http://textometrie.org) vers des fonctionnalités d’annotation textuelle directe. Certaines annotations sont liées à une ontologie historique externe appelée SyMoGIH, d’autres à l’encodage de liens de co-référence entre mots d’un texte et les dernières à des propriétés de mots telles que leur catégorie grammaticale ou leur lemme.L’article discute les enjeux méthodologiques d’une unification de la production et de l’analyse d’annotations au sein de la plateforme au regard des systèmes d’annotation traditionnels déjà exploités par TXM comme le balisage XML TEI des sources textuelles et les annotations linguistiques ajoutées automatiquement aux textes par les outils de TAL.
- Subjects :
- [SHS.STAT]Humanities and Social Sciences/Methods and statistics
[SHS.INFO]Humanities and Social Sciences/Library and information sciences
[SCCO.COMP]Cognitive science/Computer science
[SCCO.LING]Cognitive science/Linguistics
[STAT.OT]Statistics [stat]/Other Statistics [stat.ML]
corpus analysis
corpus annotation
[SHS.LANGUE] Humanities and Social Sciences/Linguistics
[STAT.OT] Statistics [stat]/Other Statistics [stat.ML]
[SHS.INFO] Humanities and Social Sciences/Library and information sciences
interactive annotation
textual corpus
[SCCO.COMP] Cognitive science/Computer science
corpus encoding
[SHS.STAT] Humanities and Social Sciences/Methods and statistics
[SCCO.LING] Cognitive science/Linguistics
[SHS.LANGUE]Humanities and Social Sciences/Linguistics
XML-TEI encoding
Natural Language Processing
Subjects
Details
- Language :
- English
- Database :
- OpenAIRE
- Journal :
- Fourteenth International Conference on the Statistical Analysis of Textual Data, 14th International Conference on the Statistical Analysis of Textual Data / 14es Journées internationales d'Analyse statistique des Données Textuelles (JADT 2018), 14th International Conference on the Statistical Analysis of Textual Data / 14es Journées internationales d'Analyse statistique des Données Textuelles (JADT 2018), DII– Department of Enterprise Engineering “Mario Lucertini” Tor Vergata University; DSS– Department of Statistical Sciences, Sapienza University, Rome, Jun 2018, Rome, Italy. pp.367-374
- Accession number :
- edsair.dedup.wf.001..05ce398739e9bcb842db1158f2ac00e5