1. Aplicación de métodos de aprendizaje semi-supervisados para el reconocimiento del habla en personas con afasia
- Author
-
Romero Ferrón, Mónica, Conesa Caralt, Jordi, and González Torre, Iván
- Subjects
redes neuronales ,reconocimiento automático del habla ,xarxes neuronals ,automatic speech recognition ,wav2vec2.0 ,neural networks ,NLP ,aphasia ,Redes neuronales -- TFM ,afasia ,Neural networks (Computer science) -- TFM ,reconeixement automàtic de la parla ,RAH ,Xarxes neuronals (Informàtica) --TFM ,fàsia - Abstract
Tradicionalmente, los sistemas de reconocimiento automático del habla (RAH) requieren de algoritmos que utilizan bases de datos etiquetadas para su aprendizaje. Sin embargo, un reciente y novedoso enfoque desarrolla modelos semi-supervisados que tienen la capacidad de realizar una parte de su entrenamiento con datos no etiquetados, facilitando así su uso en entornos donde los datos etiquetados son escasos. Este trabajo de investigación esta centrado en la aplicación de estos métodos de aprendizaje en el ámbito de la salud y, más concretamente, en voces patológicas proveniente de hablantes con diferentes tipos de afasia. Se ha trabajado con la base de datos de referencia AphasiaBank, que contiene 78 horas de audios de pacientes con diferentes grados de afasia, y que ya ha sido empleada por otros grupos de investigación. A nivel de modelado, se ha optimizado y a nado la arquitectura de aprendizaje semi-supervisado empleada sobre estos datos de dominio, a través de la aplicación de la técnica Grid Search y de la búsqueda exhaustiva de los hiperparámetros del modelo. En este estudio se comparan los resultados obtenidos con los que se reflejan en el estado del arte. Se demuestra que el modelo de reconocimiento obtenido presenta resultados que mejoran otro tipo de enfoques publicados anteriormente. Tradicionalment, els sistemes de reconeixement automàtic de la parla (RAH) requereixen d'algorismes que utilitzen bases de dades etiquetades per al seu aprenentatge. No obstant això, un recent i nou enfocament desenvolupa models semi-supervisats que tenen la capacitat de realitzar una part del seu entrenament amb dades no etiquetades, facilitant així el seu ús en entorns on les dades etiquetades són escassos. Aquest treball de recerca aquesta centrat en l'aplicació d'aquests mètodes d'aprenentatge en l'àmbit de la salut i, més concretament, en veus patològiques provinent de parlants amb diferents tipus d'afàsia. S'ha treballat amb la base de dades de referència AphasiaBank, que conté 78 hores d'àudios de pacients amb diferents graus d'afàsia, i que ja ha estat emprada per altres grups de recerca. A nivell de modelatge, s'ha optimitzat i nadant l'arquitectura d'aprenentatge semi-supervisat empleada sobre aquestes dades de domini, a través de l'aplicació de la tècnica Grid Search i de la cerca exhaustiva dels hiperparámetros del model. En aquest estudi es comparen els resultats obtinguts amb els quals es reflecteixen en l'estat de l'art. Es demostra que el model de reconeixement obtingut presenta resultats que milloren un altre tipus d'enfocaments publicats anteriorment. Traditionally, automatic speech recognition (ASR) systems require algorithms that use labeled databases for learning. However, a recent novel approach develops semi-supervised models that have the ability to perform part of their training on unlabeled data, thus facilitating their use in environments where labeled data is scarce. This research work is focused on the application of these learning methods in the health domain and, more specifically, on pathological voices coming from speakers with different types of aphasia. We have worked with the reference database AphasiaBank, which contains 78 hours of audios from patients with different degrees of aphasia, and which has already been used by other research groups. At the modeling level, the semi-supervised learning architecture used on this domain data has been optimized and tuned through the application of the Grid Search technique and the exhaustive search of the hyperparameters of the model. In this study, the results obtained are compared with those reflected in the state of the art. It is shown that the obtained recognition model presents results that improve other types of previously published approaches.
- Published
- 2021