Back to Search Start Over

XML-TEI-URS: using a TEI format for annotated linguistic resources

Authors :
Grobol, Loïc
Landragin, Frédéric
Heiden, Serge
Automatic Language Modelling and ANAlysis & Computational Humanities (ALMAnaCH)
Inria de Paris
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)
Lattice - Langues, Textes, Traitements informatiques, Cognition - UMR 8094 (Lattice)
Université Sorbonne Nouvelle - Paris 3-Université Sorbonne Paris Cité (USPC)-Centre National de la Recherche Scientifique (CNRS)-Université Paris sciences et lettres (PSL)-Département Littératures et langage - ENS Paris (LILA)
École normale supérieure - Paris (ENS-PSL)
Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École normale supérieure - Paris (ENS-PSL)
Université Paris sciences et lettres (PSL)
Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM)
École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML)
Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS)
ANR-15-CE38-0008,DEMOCRAT,DEscription et MOdélisation des Chaînes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique(2015)
ANR-11-IDEX-0005,USPC,Université Sorbonne Paris Cité(2011)
École normale supérieure - Paris (ENS Paris)
Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École normale supérieure - Paris (ENS Paris)
Université Jean Moulin - Lyon 3 (UJML)
Université de Lyon-Université de Lyon-Université Lumière - Lyon 2 (UL2)-Université Jean Monnet [Saint-Étienne] (UJM)-Centre National de la Recherche Scientifique (CNRS)-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-École normale supérieure - Lyon (ENS Lyon)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])
Département Littératures et langage - ENS Paris (LILA)
Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-Université Sorbonne Paris Cité (USPC)-Université Sorbonne Nouvelle - Paris 3
Université Sorbonne Nouvelle - Paris 3-Université Sorbonne Paris Cité (USPC)-Centre National de la Recherche Scientifique (CNRS)-Université Paris sciences et lettres (PSL)-Département Littératures et langage (LILA)
École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML)
Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet [Saint-Étienne] (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS)
Landragin, Frédéric
DEscription et MOdélisation des Chaînes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique - - DEMOCRAT2015 - ANR-15-CE38-0008 - AAPG2015 - VALID
Université Sorbonne Paris Cité - - USPC2011 - ANR-11-IDEX-0005 - IDEX - VALID
Source :
CLARIN Annual Conference 2018, CLARIN Annual Conference 2018, Oct 2018, Pisa, Italy
Publication Year :
2018
Publisher :
HAL CCSD, 2018.

Abstract

International audience; This paper discusses XML-TEI-URS, a recently introduced TEI-compliant XML format for theannotation of referential phenomenons in arbitrary corpora. We describe our experiments on usingthis format in different contexts, assess its perceived strengths and weaknesses, compare it withother similar efforts and suggest improvements to ease its use as standard for thedistribution of interoperable annotated linguistic resources.

Details

Language :
English
Database :
OpenAIRE
Journal :
CLARIN Annual Conference 2018, CLARIN Annual Conference 2018, Oct 2018, Pisa, Italy
Accession number :
edsair.dedup.wf.001..bde84afb3f1fbd89771241154f26ad37