Back to Search Start Over

Un modelo RAH para el dictado español

Authors :
Cosano Serra, Marta
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
Moreno Bilbao, M. Asunción
Ziólko, Bartosz
Source :
UPCommons. Portal del coneixement obert de la UPC, Universitat Politècnica de Catalunya (UPC)
Publication Year :
2020
Publisher :
Universitat Politècnica de Catalunya, 2020.

Abstract

Automatic Speech Recognition (ASR), or speech to text conversion, has been subject to many researchers for decades due to its various applications. In this project I propose to implement an ASR based on Hidden Markov Model (HMM) and Deep Neuronal Network (DNN) using Kaldi toolkit. Once a HMM baseline system has been built, I experimented using various transformations and neural networks. Then, more data has been added to the system to try to optimize it. Finally, the results of the transcripts have been analyzed to know where the model fails and propose future improvements. El reconocimiento automático del habla, también denominado conversión de voz a texto, ha sido motivo de numerosas investigaciones durante décadas debido a sus diversas utilidades. En este proyecto se ha implementado un modelo automático del habla en español basado en modelos ocultos de Markov (MOM) y redes neuronales profundas (DNN) usando la herramienta Kaldi. Una vez se ha implementado un sistema de referencia con MOM, se ha experimentado usando varias transformadas y redes neuronales. Después, se ha añadido más datos en el sistema para intentar optimizarlo. Finalmente, se ha analizado los resultados de las transcripciones para saber en qué falla el modelo y poder proponer futuras mejoras.

Details

Language :
Spanish; Castilian
Database :
OpenAIRE
Journal :
UPCommons. Portal del coneixement obert de la UPC, Universitat Politècnica de Catalunya (UPC)
Accession number :
edsair.dedup.wf.001..fec95b5da6937990a7e2ffdf9dbf3561