Universitat Politècnica de Catalunya. Departament d'Enginyeria Telemàtica, Paradells Aspas, Josep, Pons Martí, Xavier, Universitat Politècnica de Catalunya. Departament d'Enginyeria Telemàtica, Paradells Aspas, Josep, and Pons Martí, Xavier
The aim of this thesis is to develop an efficient and high-performing Neural Network model for enhancing keyword spotting systems (KWS) on devices with limited resources. After extensive research and experimentation, MobileNet was chosen as the preferred neural network architecture due to its suitable dimensions and memory requirements, as well as its superior accuracy and reduced false activations. The model was trained using Python and TensorFlow. After obtaining the model, a quantization was applied to reduce its size, enabling computations within the inference time limit and ensuring that memory constraints are met. Several tests were conducted to evaluate the system's behavior and identify areas for improvement. Consistent evaluation metrics were used across all generated models. Real-world testing revealed a need for improved precision, particularly in scenarios with reverberation. To addres this, future work involves generating an augmented dataset that incorporates this effect in the training samples, aiming to better prepare the model for such conditions., El objetivo de esta tesis es desarrollar un modelo de red neuronal eficiente y de alto rendimiento para mejorar los sistemas de detección de palabras clave (KWS) en dispositivos con recursos limitados. Después de una extensa investigación y experimentación, se eligió MobileNet como arquitectura de red neuronal preferida debido a sus dimensiones y requisitos de memoria adecuados, así como a su precisión superior y activaciones falsas reducidas. El modelo se entrenó utilizando Python y TensorFlow. Tras obtener el modelo, se aplicó una cuantización para reducir su tamaño, lo que permitió realizar cálculos dentro del límite de tiempo de inferencia y garantizar el cumplimiento de las restricciones de memoria. Se realizaron varias pruebas para evaluar el comportamiento del sistema e identificar áreas de mejora. Se utilizaron métricas de evaluación coherentes en todos los modelos generados. Las pruebas en condiciones reales revelaron la necesidad de mejorar la precisión, sobre todo en escenarios con reverberación. Para solucionar este problema, en el futuro se generará un dataset ampliado que incorpore este efecto a las muestras de entrenamiento, con el fin de preparar mejor el modelo para estas condiciones., L'objectiu d'aquesta tesi és desenvolupar un model eficient i d'alt rendiment de Xarxes Neuronals per millorar els sistemes de detecció de paraules clau (KWS) en dispositius amb recursos limitats. Després d'una extensa recerca i experimentació, s'ha triat MobileNet com l'arquitectura preferida de la xarxa neuronal, a causa de les seves dimensions i requeriments de memòria adequats, així com la seva precisió superior i reducció d'activacions falses. El model s'ha entrenat utilitzant Python i TensorFlow. Un cop s'ha obtingut el model, s'ha aplicat una quantització per reduir-ne la mida, permetent al microcontrolador realitzar càlculs dins del límit de temps d'inferència i assegurant que es compleixin les restriccions de memòria. S'han dut a terme diverses proves per avaluar el comportament del sistema i identificar àrees per millorar. S'han utilitzat mètriques d'avaluació constants en tots els models generats. Les proves en situacions reals han posat de manifest la necessitat de millorar la precisió, especialment en escenaris amb reverberació. Per abordar això, el treball futur implica generar un conjunt de dades augmentat que incorpori aquest efecte en les mostres d'entrenament, amb l'objectiu de preparar millor el model per a aquestes condicions.