Back to Search Start Over

LegalEc: A New Corpus for Complex Word Identification Research in Law Studies in Ecuatorian Spanish

Authors :
Ortiz Zambrano, Jenny Alexandra
Espin-Riofrio, César
Montejo Ráez, Arturo
Ortiz Zambrano, Jenny Alexandra
Espin-Riofrio, César
Montejo Ráez, Arturo
Publication Year :
2023

Abstract

In this paper, we present LegalEc, a new annotated corpus of complex lexis constructed from legal texts in Ecuadorian Spanish. We detail its compilation and annotation process. In order to provide a resource for the scientific community to continue research in the area of Lexical Simplification in the Spanish language, several complex word prediction experiments have been carried out on this corpus. We extracted 23 linguistic features which we combined with the encodings generated by models such as XLM-RoBERTa and RoBERTa-BNE (from the MarIA project). The evaluation shows that the combination of these features improves the prediction of lexical complexity.<br />En este trabajo, presentamos a LegalEc, un nuevo corpus etiquetado con léxico complejo construido con textos de contenido legal en español ecuatoriano. Detallamos el proceso de compilación y anotación del mismo. Para proporcionar casos base a la comunidad científica, se han realizado varios experimentos de predicción de palabras complejas sobre este corpus. Extrajimos 23 características lingüísticas que combinamos con las codificaciones generadas por modelos como XLM-RoBERTa y RoBERTa-BNE (del proyecto MarIA). La evaluación muestra que la combinación de estas características mejora notablemente la predicción de la complejidad léxica.

Details

Database :
OAIster
Publication Type :
Electronic Resource
Accession number :
edsoai.on1405281958
Document Type :
Electronic Resource