Back to Search Start Over

Topic Modeling for Keyword Extraction: using Natural Language Processing methods for keyword extraction in Portal Min@s

Authors :
Helena de Medeiros Caseli
Arnaldo Candido Junior
Régis Zangirolami
Célia Maria Magalhães
Source :
Revista de Estudos da Linguagem, Vol 23, Iss 3, Pp 695-726 (2015)
Publication Year :
2015
Publisher :
Universidade Federal de Minas Gerais, 2015.

Abstract

This article aims to evaluate the application of two efficient automatic methods for keyword extraction used by Corpus Linguistics and Natural Language Processing communities for generating keywords from literary texts: WordSmith Tools and Latent Dirichlet Allocation (LDA). These tools have their own specificities and are based on different extraction techniques; thus an analysis focused on their performance was required. This article aims to understand how each method works and to evaluate them when applied to extract keywords from literary works. To this end, we used human analysis, with knowledge of the field of the texts used. The LDA method was used for extracting keywords through its integration with Portal Min@s: Corpora de Fala e Escrita , a general corpora-processing system, designed for different research in corpus linguistics. The experiment outcomes confirm the effectiveness of WordSmith Tools and LDA in extracting keywords from literary corpus. They also show that human analysis of the lists is required at a stage prior to experiments to complement the automatically generated list, crossing WordSmith Tools and LDA results, and that the linguistic intuition of a human analyst about the lists generated separately by the two methods in this study was more favorable to the use of the WordSmith Tools keyword list. Keywords : Keyword Extraction, Natural Language Processing, Corpus Analysis, WordSmith Tools, Latent Dirichlet Allocation, Portal Min@s. Resumo : Este artigo tem o objetivo da avaliar a aplicacao de dois metodos automaticos eficientes na extracao de palavras-chave, usados pelas comunidades da Linguistica de Corpus e do Processamento da Lingua Natural para gerar palavras-chave de textos literarios: o WordSmith Tools e o Latent Dirichlet Allocation (LDA). As duas ferramentas escolhidas para este trabalho tem suas especificidades e tecnicas diferentes de extracao, o que nos levou a uma analise orientada para a sua performance. Objetivamos entender, entao, como cada metodo funciona e avaliar sua aplicacao em textos literarios. Para esse fim, usamos analise humana, com conhecimento do campo dos textos usados. O metodo LDA foi usado para extrair palavras-chave por meio de sua integracao com o Portal Min@s: Corpora de Fala e Escrita , um sistema geral de processamento de corpora , concebido para diferentes pesquisas de Linguistica de Corpus . Os resultados do experimento confirmam a eficacia do WordSmith Tools e do LDA na extracao de palavras-chave de um corpus literario, alem de apontar que e necessaria a analise humana das listas em um estagio anterior aos experimentos para complementar a lista gerada automaticamente, cruzando os resultados do WordSmith Tools e do LDA. Tambem indicam que a intuicao linguistica do analista humano sobre as listas geradas separadamente pelos dois metodos usados neste estudo foi mais favoravel ao uso da lista de palavras-chave do WordSmith Tools. Palavras-chave : extracao de palavras-chave; processamento natural da linguagem; analise de corpus; WordSmith Tools; Latent Dirichlet Allocation; Portal Min@s.

Details

Language :
English
ISSN :
22372083 and 01040588
Volume :
23
Issue :
3
Database :
OpenAIRE
Journal :
Revista de Estudos da Linguagem
Accession number :
edsair.doi.dedup.....f228d50da455b23f19d25d2726759b87