Back to Search Start Over

Extraction of Relevant Information from Free-form Resumes

Authors :
Vukadin, Davor
Šilić, Marin
Publication Year :
2020
Publisher :
Sveučilište u Zagrebu. Fakultet elektrotehnike i računarstva., 2020.

Abstract

U ovom radu prikazan je način rada arhitekture za obradu sekvencijalnih podataka - transformera te implementacije enkoderskog dijela u obliku jezičnog modela BERT. Implementirana su dva modela koja koriste BERT kao višejezični ekstraktor značajki te su učeni na dva skupa podataka, jedan za ekstrakciju "tvrdih" informacija i njihovog konteksta iz životopisa, a drugi za označavanje kvalitete samoprocjene korištenja vještina. Unutarnji slojevi pozornosti modela su analizirani kako bi se potvrdila važnost i funkcija novododanih tokena za konačnu klasifikaciju. Također su analizirane vektorske reprezentacije oba modela te njihov utjecaj na performanse. This paper presents the operation of the architecture for sequential data processing - transformers and the implementation of the encoder part in the form of the language model BERT. Two models were implemented that use BERT as a multilingual feature extractor and were trained on two data sets, one to extract “hard” information and its context from a resume, and the other to label the quality of skill self-assessment. The inner attention layers of the model were analyzed to confirm the importance and function of the newly added tokens for the final classification. The embeddings of both models and their impact on performance were also analyzed.

Details

Language :
Croatian
Database :
OpenAIRE
Accession number :
edsair.od......4131..dd6c23d4bbeaaa4b98d4e3fed1aff6dd