Back to Search Start Over

Automatic analysis of textual content of collections of scientific papers to support documentary analysis and knowledge management of a IES in the Colombian Orinoco region

Authors :
Porras García, Yerson Ferney
Cruz-Roa, Angel
González Osorio, Fabio Augusto
MindLab
Tecnologías Abiertas (GITECX)
Source :
Repositorio UN, Universidad Nacional de Colombia, instacron:Universidad Nacional de Colombia
Publication Year :
2021
Publisher :
Universidad Nacional de Colombia, 2021.

Abstract

ilustraciones, diagramas La Universidad de los Llanos (Unillanos), con influencia en la Orinoquía colombiana, ha incrementado la producción de artículos científicos y realizar análisis del contenido textual de generación de nuevo conocimiento empieza a ser tedioso de forma manual. Este trabajo presenta un modelado y análisis automático de temas usando Latent Dirichlet Allocation (LDA) para el análisis semántico y temático de artículos científicos publicados por autores de la Unillanos disponibles en SCOPUS. LDA es comúnmente utilizado para descubrir relaciones de co-ocurrencia entre palabras y conformar grupos con valor semántico latente. Para el análisis, se obtuvo 137 artículos científicos en Inglés, analizados con LDA y usando la medida de desempeño Coherence Measure (CM). Se planteó un proceso sistemático de parámetros para determinar la parametrización del conjunto de datos y modelo LDA. El cual fue evaluado cuantitativa y cualitativamente. Se construyó un instrumento web para el diligenciamiento de las evaluaciones cualitativas por parte de un conjunto de expertos seleccionados, el cual se denominó "whatTopic''. Cuantitativamente, el modelo obtuvo un valor de CM=0.639 para un número de temas de 10. Cualitativamente, se comparó y relacionó temas propuestos con etiquetas preestablecidas por SCOPUS como "Scopus subrea'' y "Scival Topic Prominence''. En ambos casos se identificó como el principal tema la "Experimentación e Investigación'' siendo transversal a los demás temas identificados que están asociados a características de la Unillanos como recursos naturales, agropecuarios, física y telecomunicaciones. (Tomado de la fuente) The Universidad de los Llanos (Unillanos), with influence in the Colombian Orinoco region, has increased the production of scientific articles and the analysis of textual content from generation of new knowledge is difficult when done manually. This paper presents automatic topic modeling and analysis using Latent Dirichlet Allocation (LDA) for the semantic and topic analysis of scientific articles published by authors of Unillanos available in Scopus. LDA is commonly used to discover co-occurrence relationships among words and grouping with latent semantic value. For this analysis, 137 scientific articles in English were obtained, analyzed with LDA, and using the Coherence Measure (CM) as performance measure. A systematic parameter process was proposed to determine the parameterization of the dataset and LDA model. It was evaluated quantitatively and qualitatively. A web-based instrument was constructed for the completion of the qualitative evaluations by a group of selected experts, which was called "whatTopic''. Quantitatively, the model obtained a value of CM=0.639 for a number of topics of 10. Qualitatively, the proposed topics were compared and related to pre-established SCOPUS labels such as "Scopus subrea'' and "Scival Topic Prominence''. In both cases, "Experimentation and Research'' was identified as the main topic, being transversal to the other identified topics associated with Unillanos characteristics such as natural resources, agriculture and livestock, physics and telecommunications. (Text taken from source) Maestría Magíster en Ingeniería - Ingeniería de Sistemas y Computación Computación Aplicada y Ciencias de la Computación

Details

Language :
Spanish; Castilian
Database :
OpenAIRE
Journal :
Repositorio UN, Universidad Nacional de Colombia, instacron:Universidad Nacional de Colombia
Accession number :
edsair.dedup.wf.001..61cfb2c65e201a507afa73d46189bee5