474 results on '"Processament de la parla"'
Search Results
2. Comparative analysis of methods for the adaptation of Speech Emotion Recognition (SER) systems
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, University of New South Wales, Muñoz Medina, Olga, Sethu, Vidhyasharan, Feijóo Rodríguez, David, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, University of New South Wales, Muñoz Medina, Olga, Sethu, Vidhyasharan, and Feijóo Rodríguez, David
- Abstract
The aim of this work is to analyse how the adaptation to certain speakers of a Speech Emotion Recognition (SER) system improves its performance by contrasting several variations of the adaptation procedure. The initial focus is on constructing a robust SER system using a deep neural network (DNN), which serves as the baseline model. This DNN is trained to recognize emotions present in speech signals. To further optimize the system's accuracy and efficacy, adaptation techniques are employed. These techniques involve adapting the baseline model to specific speakers, accounting for individual variations in speech patterns and emotions. This is implemented by further training the baseline model with different adaptation datasets. Finally, the performance of the adapted SER systems is evaluated and compared to the baseline to see which variations give better results and extract conclusions on which factors are more influential in the final performance of the adapted model., El objetivo de este trabajo es analizar cómo la adaptación a ciertos hablantes de un sistema de Reconocimiento de Emociones en el Discurso (SER, por sus siglas en inglés), mejora su rendimiento. El análisis se lleva a cabo contrastando diversas variaciones del procedimiento de adaptación. El enfoque inicial se centra en la construcción de un sistema SER robusto utilizando una red neuronal profunda (DNN, por sus siglas en inglés), que sirve como modelo de referencia. Esta DNN se entrena para reconocer emociones presentes en el discurso. Para optimizar aún más la precisión y eficacia del sistema, se emplean técnicas de adaptación. Estas técnicas implican adaptar el modelo de referencia a hablantes específicos, para así tener en cuenta las variaciones individuales en los patrones de habla y emociones. Esto se lleva a cabo mediante un entrenamiento adicional del modelo de referencia con diferentes conjuntos de datos. Finalmente, se evalúa el rendimiento de los sistemas SER adaptados y se comparan con el modelo de referencia para determinar qué variaciones proporcionan mejores resultados y extraer conclusiones sobre qué factores son más influyentes en el rendimiento final del modelo adaptado., L'objectiu d'aquest treball és analitzar com l'adaptació a certs parlants d'un sistema de Reconeixement d'Emocions en el Discurs (SER, per les seves sigles en anglès) millora el seu rendiment. L'anàlisi es realitza contrastant diverses variacions del procediment d'adaptació. L'enfocament inicial es centra en la construcció d'un sistema SER robust utilitzant una xarxa neuronal profunda (DNN, per les seves sigles en anglès), que serveix com a model de referència. Aquesta DNN s'entrena per reconèixer emocions presents en el discurs. Per optimitzar encara més la precisió i eficàcia del sistema, es fan servir tècniques d'adaptació. Aquestes tècniques impliquen adaptar el model de referència a parlants específics, per tal de tenir en compte les variacions individuals en els patrons de parla i emocions. Això es duu a terme mitjançant un entrenament addicional del model de referència amb diferents conjunts de dades. Finalment, s'avalua el rendiment dels sistemes SER adaptats i es comparen amb el model de referència per determinar quines variacions proporcionen millors resultats i extreure conclusions sobre quins factors són més influents en el rendiment final del model adaptat.
- Published
- 2023
3. Design, development, and evaluation of a real-time facial expression and speech emotion recognition system
- Author
-
Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial, Grau Saldes, Antoni, Martínez García, Herminio, Borràs Duarte, Marta, Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial, Grau Saldes, Antoni, Martínez García, Herminio, and Borràs Duarte, Marta
- Abstract
Aquesta tesi presenta el disseny, desenvolupament i avaluació d’un sistema de reconeixement d'emocions en temps real per a aplicacions mèdiques. El mateix permet la monitorització en remot de l'estat emocional de pacients mitjançant tècniques de Reconeixement d'Expressions Facials (FER) i de Reconeixement d'Emocions de la Veu (SER). Les dades recopilades s'emmagatzemen en una base de dades al núvol, la qual cosa permet als professionals sanitaris accedir a les mateixes en temps real o diferit, i des de qualsevol localització. El sistema utilitza Reconeixement Facial (FR), prèviament a l’etapa de reconeixement d’emocions, per tal d’emmagatzemar les dades de cada pacient per separat en perfils individuals. El sistema té dos tipus de modes de funcionament: el reconeixement d'emocions monomodal i el multimodal. En funcionament monomodal, s’infereix en l’estat emocional del subjecte per FER. D’altra banda, el funcionament multimodal combina FER i SER per obtenir informació més profunda de l'estat emocional del subjecte. El sistema està dissenyat com a una proba de concepte amb un propòsit general. No obstant això, aquest treball també proposa diverses aplicacions en les quals podria ser integrat, i explora els ajustos necessaris per complir amb els requisits específics de cada cas d'ús. Finalment, en aquesta tesi s'aborden les implicacions ètiques i la protecció de dades relacionades amb l’ús d’aquest sistema., Esta tesis presenta el diseño, desarrollo y evaluación de un sistema de reconocimiento de emociones en tiempo real para aplicaciones médicas. El mismo permite la monitorización en remoto del estado emocional de pacientes mediante técnicas de Reconocimiento de Expresiones Faciales (FER) y de Reconocimiento de Emociones de la Voz (SER). Los datos recopilados se almacenan en una base de datos en la nube, lo que permite que profesionales sanitarios puedan acceder a las mismas en tiempo real o diferido, y desde cualquier localización. El sistema integra reconocimiento facial (FR) para crear perfiles individuales para cada paciente, permitiendo el almacenamiento de datos por separado. El sistema tiene dos tipos de modos de funcionamiento: el reconocimiento de emociones monomodal y el multimodal. En funcionamiento monomodal, se infiere en el estado emocional del sujeto por FER. Por otro lado, el funcionamiento multimodal combina FER y SER para proporcionar información más profunda del estado emocional del sujeto. El sistema está diseñado como una prueba de concepto con un propósito general. No obstante, este trabajo también propone varias aplicaciones en las cuales podría ser integrado, y explora los ajustes necesarios para cumplir con los requisitos específicos de cada caso de uso. Finalmente, en esta tesis se abordan las implicaciones éticas y la protección de datos personales relacionadas con el uso de este sistema., This thesis presents the design, development, and evaluation of a real-time emotion recognition system for healthcare applications. It aims to remotely monitor patients' emotional states using Facial Expression Recognition (FER) and Speech Emotion Recognition (SER) techniques. The collected data is stored in a cloud-based database, allowing healthcare professionals to access real-time updates from anywhere. Additionally, the system uses Facial Recognition (FR) to identify the patients before emotion recognition, to enable data storage into separate profiles. The system has two types of functioning modes: monomodal and multimodal emotion recognition. In the monomodal approach, FER is employed to infer the emotional state of the subject. On the other hand, the multimodal approach combines both FER and SER to provide deeper insights into the subject's emotional state. The system is designed as a proof of concept with a general purpose in mind. However, this work also proposes various applications in which the system could be integrated, and outlines the adjustments required to meet the specific needs of each use case. Finally, this thesis addresses the ethical and data protection implications associated with the use of this system.
- Published
- 2023
4. Conversió de veu a text per a reunions virtuals: un estudi de transcripció automatitzada
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Carreño Pio, Sergi, Candela i Oliver, Elia, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Carreño Pio, Sergi, and Candela i Oliver, Elia
- Abstract
In the last few years, the use of Deep Learning has increased in virtual assistance and speech recognition applications, improving its performance with supervised learning techniques. However, it is an area that continues to evolve and enrich itself constantly as it is used. One of the sectors where this technology is being implemented most frequently is in ASR (Automatic Speech Recognition) applications, especially in transcription. The company ITNow is working on developing a speech-to-text conversion system that offers the best possible performance for virtual meetings. In this project, several automatic transcription libraries that meet the company's requirements are being studied to find the one that achieves the best performance and accuracy in converting the spoken voice signal into written content. This research will enable ITNow to improve the efficiency of virtual meetings with accurate and quality transcripts, enhancing understanding and decision making., En los últimos años, el uso del Deep Learning ha aumentado en aplicaciones de asistencia virtual y reconocimiento de voz, mejorando su funcionamiento con técnicas de aprendizaje supervisado. Sin embargo, es un área que continúa evolucionando y enriqueciéndose constantemente a medida que se utiliza. Uno de los sectores donde esta tecnología se está implementando con mayor frecuencia es en las aplicaciones de ASR (Automatic Speech Recognition), especialmente en transcripciones. La empresa ITNow está trabajando en desarrollar un sistema de conversión de voz a texto que ofrezca el mejor rendimiento posible para las reuniones virtuales. En este proyecto, se están estudiando varias bibliotecas de transcripción automática que cumplen con los requisitos de la empresa, para lograr aquella que alcance el mejor rendimiento y precisión al convertir la señal de voz hablada en contenido escrito. Esta investigación permitirá a ITNow mejorar la eficacia de las reuniones virtuales con transcripciones precisas y de calidad, favoreciendo la comprensión y toma de decisiones., En els últims anys, l'ús del Deep Learning ha augmentat en aplicacions d'assistència virtual i reconeixement de veu, millorant-ne el funcionament amb tècniques d'aprenentatge supervisat. No obstant això, és una àrea que continua evolucionant i enriquint-se constantment a mesura que s'utilitza. Un dels sectors en el què aquesta tecnologia s'està implementant amb més freqüència és en les aplicacions d'ASR (Automatic Speech Recognition), especialment en transcripcions. L'empresa ITNow està treballant per desenvolupar un sistema de conversió de veu a text que ofereixi el millor rendiment possible per a les reunions virtuals. En aquest projecte, s'estudien diverses llibreries de transcripció automàtica que compleixen els requisits de l'empresa, i així aconseguir la que assoleix millor rendiment i precisió en convertir el senyal de veu parlat en contingut escrit. Aquesta investigació permetrà a ITNow millorar l'eficàcia de les reunions virtuals amb transcripcions precises i de qualitat per afavorir la comprensió i presa de decisions.
- Published
- 2023
5. Efficient speech translation with dynamic latent perceivers
- Author
-
Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. IDEAI-UPC - Intelligent Data sciEnce and Artificial Intelligence Research Group, Tsiamas, Ioannis, Gallego Olsina, Gerard Ion, Fonollosa, José A. R., Costajussa, M.R., Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. IDEAI-UPC - Intelligent Data sciEnce and Artificial Intelligence Research Group, Tsiamas, Ioannis, Gallego Olsina, Gerard Ion, Fonollosa, José A. R., and Costajussa, M.R.
- Abstract
Transformers have been the dominant architecture for Speech Translation in recent years, achieving significant improvements in translation quality. Since speech signals are longer than their textual counterparts, and due to the quadratic complexity of the Transformer, a down-sampling step is essential for its adoption in Speech Translation. Instead, in this research, we propose to ease the complexity by using a Perceiver encoder to map the speech inputs to a fixed-length latent representation. Furthermore, we introduce a novel way of training Perceivers, with Dynamic Latent Access (DLA), unlocking larger latent spaces without any additional computational overhead. Speech-to-Text Perceivers with DLA can match the performance of Transformer baselines across three language pairs in MuST-C. Finally, a DLA-trained model is easily adaptable to DLA at inference, and can be flexibly deployed with various computational budgets, without significant drops in translation quality., Postprint (published version)
- Published
- 2023
6. Joint learning of depression and anxiety severity directly from speech signals
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, King's College London, Vallverdú Bayés, Sisco, Cummins, Nicholas, Quintana Aguasca, Eric, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, King's College London, Vallverdú Bayés, Sisco, Cummins, Nicholas, and Quintana Aguasca, Eric
- Abstract
Advances in digital health and phenotyping technologies are crucial to ensureincreased access to high-quality mental health support services and treatment. Speech is uniquely placed in this regard, as no other mobile health signal contains its singular combination of cognitive, neuromuscular and physiological information. It is this complexity which makes speech a suitable marker for different mentalhealth conditions.However, much research exploring links between speech and depression is limited, and co-morbidities with conditions such as anxiety have not been exploited to help improve machine learning models.The purpose of this project is to jointly learn depression and anxietydirectly from speech signals.For this project, speech signals were split into segments that were converted into Mel-spectrograms. Automatic feature extraction was performed using a CNN-LSTM model that can classify into5 severities ofdepression. With transfer learning, this model was then usedas a pre-trained model for other tasks, such as classifying speech signals into different 4 severities of anxiety or improving modelsfor both co-morbiditiesin different languages. Finally, a Multi-Task learning model is used to jointly detect depression and anxiety. Models that use transfer learning to detectanxiety achieve an improvement from 67% to 72% of accuracy, while multi-Task learning models achieve an accuracy of 71% for both co-morbidities, anxiety and depression. The experiments show promising results, discussing the viability of jointly detecting mental health conditions such as depression and anxiety as well as exploiting the viability of using models pre-trained for just one condition, language or task to fine-tune a model for another condition, language or task, demonstrating that co-morbidities can help to improve models for joint learning severities directly from speech signals.
- Published
- 2023
7. Investigating the Training Dynamics in End-to-end Speech Translation
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Gallego Olsina, Gerard Ion, Ruiz Costa-Jussà, Marta, Alastruey Lasheras, Belén, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Gallego Olsina, Gerard Ion, Ruiz Costa-Jussà, Marta, and Alastruey Lasheras, Belén
- Abstract
The task of speech translation consists one translating speech input into text in a different language. In this project, we present an interpretability analysis of a Transformer model on this task. Our work builds upon previous research which explored the training phases of a Transformer for text translation. We extend their analysis to study the training of the Transformer for ST, focusing on the variations of contribution of the source to the predictions during the training process. We show that depending on the training strategy, some speech translation models show a similar source contribution than text translation ones, but others have a lower source contribution and a worse performance. Furthermore, we propose modification to the Transformer architecture, aiming to force the model to use more source in its predictions. Through this modifications, we achieve a significant performance boost of up to +1.3 BLEU.
- Published
- 2023
8. Augment de dades de veu per a sistemes de processament de la parla
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Hernando Pericás, Francisco Javier, Falceto Piñol, Anna, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Hernando Pericás, Francisco Javier, and Falceto Piñol, Anna
- Abstract
We live in an era where intelligent systems are becoming more and more part of our lives. These systems require a large amount of data to learn different tasks and, in many cases, not enough content is available to train them. Data augmentation stems from the necessity of creating, in an artificial way, new data similar to the original to help in better training. It applies to many types of intelligent systems, although this project focuses on data augmentation for speech. In this work, a computer program, capable of processing large databases and expanding their content using different techniques, will be presented., Vivimos en una era donde los sistemas inteligentes forman cada vez más parte de nuestra vida. Estos sistemas necesitan una gran cantidad de datos para conseguir aprender diferentes tareas y, en muchos casos, no se dispone de suficiente contenido para entrenarlos. El aumento de datos nace de la necesidad de crear artificialmente nuevos datos, similares a los originales, que ayuden a hacer un mejor entrenamiento. Es aplicable a muchos tipos de sistemas inteligentes, pero este trabajo se centra en el aumento de datos de voz. En él se presentará un programa informático capaz de procesar grandes bases de datos y ampliar su contenido mediante diferentes técnicas., Vivim en una era on els sistemes intel·ligents formen cada cop més part de la nostra vida. Aquests sistemes necessiten una gran quantitat de dades per aconseguir aprendre diferents tasques i, en molts casos, no es disposa de suficient contingut per entrenar-los. L'augment de dades neix de la necessitat de crear artificialment noves dades, similars a les originals, que ajudin a fer un millor entrenament. És aplicable a molts tipus de sistemes intel·ligents, però aquest treball se centra en l'augment de dades de veu. En aquest es presentarà un programa informàtic capaç de processar grans bases de dades i ampliar-ne el contingut mitjançant diferents tècniques.
- Published
- 2023
9. Language modelling for speaker diarization in telephonic interviews
- Author
-
Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla, India Massana, Miquel Àngel, Hernando Pericás, Francisco Javier, Rodríguez Fonollosa, José Adrián, Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla, India Massana, Miquel Àngel, Hernando Pericás, Francisco Javier, and Rodríguez Fonollosa, José Adrián
- Abstract
The aim of this paper is to investigate the benefit of combining both language and acoustic modelling for speaker diarization. Although conventional systems only use acoustic features, in some scenarios linguistic data contain high discriminative speaker information, even more reliable than the acoustic ones. In this study we analyze how an appropriate fusion of both kind of features is able to obtain good results in these cases. The proposed system is based on an iterative algorithm where a LSTM network is used as a speaker classifier. The network is fed with character-level word embeddings and a GMM based acoustic score created with the output labels from previous iterations. The presented algorithm has been evaluated in a Call-Center database, which is composed of telephone interview audios. The combination of acoustic features and linguistic content shows a 84.29% improvement in terms of a word-level DER as compared to a HMM/VB baseline system. The results of this study confirms that linguistic content can be efficiently used for some speaker recognition tasks., This work was partially supported by the Spanish Project DeepVoice (TEC2015-69266-P) and by the project PID2019-107579RBI00/ AEI /10.13039/501100011033., Peer Reviewed, Postprint (published version)
- Published
- 2023
10. Augment de dades de veu per a sistemes de processament de la parla
- Author
-
Falceto Piñol, Anna, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and Hernando Pericás, Francisco Javier
- Subjects
procesamiento del habla ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Processament de la parla ,Speech processing systems ,augmento de datos ,speech processing ,data augmentation - Abstract
We live in an era where intelligent systems are becoming more and more part of our lives. These systems require a large amount of data to learn different tasks and, in many cases, not enough content is available to train them. Data augmentation stems from the necessity of creating, in an artificial way, new data similar to the original to help in better training. It applies to many types of intelligent systems, although this project focuses on data augmentation for speech. In this work, a computer program, capable of processing large databases and expanding their content using different techniques, will be presented. Vivimos en una era donde los sistemas inteligentes forman cada vez más parte de nuestra vida. Estos sistemas necesitan una gran cantidad de datos para conseguir aprender diferentes tareas y, en muchos casos, no se dispone de suficiente contenido para entrenarlos. El aumento de datos nace de la necesidad de crear artificialmente nuevos datos, similares a los originales, que ayuden a hacer un mejor entrenamiento. Es aplicable a muchos tipos de sistemas inteligentes, pero este trabajo se centra en el aumento de datos de voz. En él se presentará un programa informático capaz de procesar grandes bases de datos y ampliar su contenido mediante diferentes técnicas. Vivim en una era on els sistemes intel·ligents formen cada cop més part de la nostra vida. Aquests sistemes necessiten una gran quantitat de dades per aconseguir aprendre diferents tasques i, en molts casos, no es disposa de suficient contingut per entrenar-los. L'augment de dades neix de la necessitat de crear artificialment noves dades, similars a les originals, que ajudin a fer un millor entrenament. És aplicable a molts tipus de sistemes intel·ligents, però aquest treball se centra en l'augment de dades de veu. En aquest es presentarà un programa informàtic capaç de processar grans bases de dades i ampliar-ne el contingut mitjançant diferents tècniques.
- Published
- 2023
11. Joint learning of depression and anxiety severity directly from speech signals
- Author
-
Quintana Aguasca, Eric, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, King's College London, Vallverdú Bayés, Sisco, and Cummins, Nicholas
- Subjects
Medicina--Informàtica ,Deep learning (Machine learning) ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,multi-task learning ,deep learning ,Processament de la parla ,Speech processing systems ,Medicine--Data processing ,health informatics ,mental health ,Transfer learning ,speech processing ,Aprenentatge profund - Abstract
Advances in digital health and phenotyping technologies are crucial to ensureincreased access to high-quality mental health support services and treatment. Speech is uniquely placed in this regard, as no other mobile health signal contains its singular combination of cognitive, neuromuscular and physiological information. It is this complexity which makes speech a suitable marker for different mentalhealth conditions.However, much research exploring links between speech and depression is limited, and co-morbidities with conditions such as anxiety have not been exploited to help improve machine learning models.The purpose of this project is to jointly learn depression and anxietydirectly from speech signals.For this project, speech signals were split into segments that were converted into Mel-spectrograms. Automatic feature extraction was performed using a CNN-LSTM model that can classify into5 severities ofdepression. With transfer learning, this model was then usedas a pre-trained model for other tasks, such as classifying speech signals into different 4 severities of anxiety or improving modelsfor both co-morbiditiesin different languages. Finally, a Multi-Task learning model is used to jointly detect depression and anxiety. Models that use transfer learning to detectanxiety achieve an improvement from 67% to 72% of accuracy, while multi-Task learning models achieve an accuracy of 71% for both co-morbidities, anxiety and depression. The experiments show promising results, discussing the viability of jointly detecting mental health conditions such as depression and anxiety as well as exploiting the viability of using models pre-trained for just one condition, language or task to fine-tune a model for another condition, language or task, demonstrating that co-morbidities can help to improve models for joint learning severities directly from speech signals.
- Published
- 2023
12. Analysis of social trends based on artificial intelligence techniques
- Author
-
Pérez Lozano, Albert, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and Morera Trujillo, Jordi
- Subjects
Artificial intelligence ,inteligencia artificial ,Intel·ligència artificial ,Tecnologia i societat ,Enginyeria de la telecomunicació::Processament del senyal [Àrees temàtiques de la UPC] ,social trends ,procesamiento del lenguaje natural ,keyword extraction ,extracción de palabras clave ,web scraping ,Processament de la parla ,tendencias sociales ,Speech processing systems ,natural language processing - Abstract
In order to analyze and extract information about social trends in the Spanish and Portuguese environment from an objective point of view, the implementation of this project was requested. This consists of extracting information from different and varied sources of internet information through the web scraping technique, and then using artificial intelligence techniques to process the texts obtained and extract keywords. Finally, two different ways of presenting the obtained results have been created in order to extract as much insights as possible from them. Con el fin de analizar y extraer información sobre las tendencias sociales en el entorno español y portugués desde un punto de vista objetivo, se solicitó la implementación de este proyecto. Este consiste en extraer información de diferentes y variadas fuentes de información de internet a través de la técnica del "web scraping", y posteriormente utilizar técnicas de inteligencia artificial para procesar los textos obtenidos y extraer palabras clave. Por último, se han creado dos formas diferentes de presentar los resultados obtenidos, con el fin de extraer de ellos la mayor cantidad de información posible. Per tal d'analitzar i extreure informació sobre les tendències socials de l'entorn espanyol i portuguès des d'un punt de vista objectiu, es va sol·licitar la implementació d'aquest projecte. Aquest consisteix en extreure informació de diferents i variades fonts d'informació d'internet mitjançant la tècnica del "web scraping", i després utilitzar tècniques d'intel·ligència artificial per processar els textos obtinguts i extreure'n paraules clau. Finalment, s'han creat dues maneres diferents de presentar els resultats obtinguts, per tal d'obtenir-ne el màxim d'informació possible.
- Published
- 2022
13. Validació i classificació d'àudio del projecte 'Common Voice'
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Esquerra Llucià, Ignasi, Ramírez Martí, Carla, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Esquerra Llucià, Ignasi, and Ramírez Martí, Carla
- Abstract
Common Voice és un projecte que convida a la gent a donar la seva veu en la seva llengua materna amb el propòsit de reunir corpus de veus. Aquests corpus, disponibles en més de noranta idiomes, estan formats per una gran quantitat d’àudios curts, en els quals els usuaris es graven llegint una frase, i es poden utilitzar per millorar els sistemes de reconeixement i síntesi de parla. Precisament en català la majoria d’aquests sistemes actualment necessiten millores en els seus models i la base de dades de Common Voice pot arribar a ser de gran utilitat. Un dels seus avantatges és l'accessibilitat per a tothom, tant per la gent que vol desenvolupar sistemes de reconeixement com per la que vol proporcionar la seva veu. Per aquest motiu, aquest projecte utilitza el corpus català amb la intenció de validar-lo, intentant generar una segmentació fonètica dels àudios i posteriorment analitzant la precisió de les etiquetes, amb l’objectiu de poder contribuir en el desenvolupament de les tecnologies de la parla, a més d’adquirir coneixements sobre el funcionament de gestió de dades i entrenament de models amb xarxes neuronals. Inicialment, es pretenia processar la base de dades completa, formada per 25 GB de dades i més de 1000 hores gravades, però això requereix una gran quantitat de temps i de recursos computacionals, així que s’ha optat per seleccionar un conjunt reduït de dades i treballar a menor escala. El procediment ha sigut realitzar un alineament forçat amb els àudios i les seves transcripcions amb els programes Festival i Montreal Forced Aligner. Per aquest últim s’ha necessitat entrenar un model acústic, utilitzant el mateix corpus de Common Voice però amb diferents arxius. Finalment s’ha analitzat la precisió temporal de les etiquetes resultants, en les que s’ha vist que no eren del tot perfectes., Common Voice es un proyecto que invita a la gente a donar su voz en su lengua materna con el propósito de reunir corpus de voz. Estos corpus, disponibles en más de noventa idiomas, estan formados por una gran cantidad de audios cortos, en los que los usuarios se graban leyendo una frase, y se pueden utilizar para mejorar los sistemes de reconocimiento y síntesi del habla. Precisamente en catalán la mayoría de estos sistemas actualmente necesitan mejoras en sus models y la base de datos de Common Voice puede llegar a ser de gran utilidad. Una de sus ventajas es la accesibilidad para todo el mundo, tanto para la gente que quiere desarrollar sistemas de reconocimiento como para la que quiere proporcionar su voz. Por eso, este proyecto utiliza el corpus catalán con la intención de validarlo, intentando generar una segmentación fonética de los audios y posteriormente analizando la precisión de las etiquetas, con el objetivo de poder contribuir con el desarrollo de las tecnologías del habla, además de adquirir conocimientos sobre el funcionamiento de gestión de datos y entrenamiento de modelos con redes neuronales. Inicialmente, se pretendía procesar la base de datos completa, formada por 25 GB de datos y más de 1000 horas grabadas, pero esto requiere una gran cantidad de tiempo y de recursos computacionales, así que se ha optado por seleccionar un conjunto reducido de datos y trabajar a menor escala. El procedimiento ha sido realizar un alineamiento forzado con los audios y sus transcripciones con los programas Festival y Montreal Forced Aligner. Para este último se ha necesitado entrenar un modelo acústico, usando el mismo corpus de Common Voice pero con diferentes archivos. Finalmente se ha analizado la precisión temporal de las etiquetas resultantes, en las que se ha visto que no eran del todo perfectas., Common Voice is a project that invites people to donate their voice in their mother tongue in order to collect speech corpora. These corpora, available in more than ninety languages, consist of a large quantity of short audio files, in which users record themselves reading a sentence, and can be used to improve speech recognition and synthesis systems. In catalan, most of these systems currently need improvement in their models and the Common Voice dataset may be very helpful. One of its advantages is the accessibility for everyone, both for people who want to develop speech recognition systems and for people who want to provide their voice data. For this reason, this project uses the catalan corpus with the purpose of validating it, generating a phonetic segmentation of the audios and subsequently analyzing the labeling precision, with the aim of being able to contribute in the development of speech technologies, as well as gaining knowledge about data management and model training. The initial idea was processing the whole dataset, consisting of 25 GB of data and more than 1000 hours of recording, but this requires a large amount of time and computing resources, so a later choice was selecting a reduced set of audios and work on a smaller scale. The procedure was performing forced alignment on the audios and their orthographic transcriptions with Festival and Montreal Forced Aligner. For the latter, the training of a new acoustic model was needed, using the same Common Voice corpus but with different files. Finally the accuracy of the labels was analyzed, but the results showed that they were not entirely accurate.
- Published
- 2022
14. Measuring the mixing of contextual information in the transformer
- Author
-
Universitat Politècnica de Catalunya. Doctorat en Intel·ligència Artificial, Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. IDEAI-UPC - Intelligent Data sciEnce and Artificial Intelligence Research Group, Ferrando Monsonís, Javier, Gallego Olsina, Gerard Ion, Ruiz Costa-Jussà, Marta, Universitat Politècnica de Catalunya. Doctorat en Intel·ligència Artificial, Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. IDEAI-UPC - Intelligent Data sciEnce and Artificial Intelligence Research Group, Ferrando Monsonís, Javier, Gallego Olsina, Gerard Ion, and Ruiz Costa-Jussà, Marta
- Abstract
The Transformer architecture aggregates input information through the self-attention mechanism, but there is no clear understanding of how this information is mixed across the entire model. Additionally, recent works have demonstrated that attention weights alone are not enough to describe the flow of information. In this paper, we consider the whole attention block --multi-head attention, residual connection, and layer normalization-- and define a metric to measure token-to-token interactions within each layer. Then, we aggregate layer-wise interpretations to provide input attribution scores for model predictions. Experimentally, we show that our method, ALTI (Aggregation of Layer-wise Token-to-token Interactions), provides more faithful explanations and increased robustness than gradient-based methods., Javier Ferrando and Gerard I. Gállego are supported by the Spanish Ministerio de Ciencia e Innovación through the project PID2019-107579RB-I00 / AEI / 10.13039/501100011033., Peer Reviewed, Postprint (published version)
- Published
- 2022
15. Analysis of social trends based on artificial intelligence techniques
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Morera Trujillo, Jordi, Pérez Lozano, Albert, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Morera Trujillo, Jordi, and Pérez Lozano, Albert
- Abstract
In order to analyze and extract information about social trends in the Spanish and Portuguese environment from an objective point of view, the implementation of this project was requested. This consists of extracting information from different and varied sources of internet information through the web scraping technique, and then using artificial intelligence techniques to process the texts obtained and extract keywords. Finally, two different ways of presenting the obtained results have been created in order to extract as much insights as possible from them., Con el fin de analizar y extraer información sobre las tendencias sociales en el entorno español y portugués desde un punto de vista objetivo, se solicitó la implementación de este proyecto. Este consiste en extraer información de diferentes y variadas fuentes de información de internet a través de la técnica del "web scraping", y posteriormente utilizar técnicas de inteligencia artificial para procesar los textos obtenidos y extraer palabras clave. Por último, se han creado dos formas diferentes de presentar los resultados obtenidos, con el fin de extraer de ellos la mayor cantidad de información posible., Per tal d'analitzar i extreure informació sobre les tendències socials de l'entorn espanyol i portuguès des d'un punt de vista objectiu, es va sol·licitar la implementació d'aquest projecte. Aquest consisteix en extreure informació de diferents i variades fonts d'informació d'internet mitjançant la tècnica del "web scraping", i després utilitzar tècniques d'intel·ligència artificial per processar els textos obtinguts i extreure'n paraules clau. Finalment, s'han creat dues maneres diferents de presentar els resultats obtinguts, per tal d'obtenir-ne el màxim d'informació possible.
- Published
- 2022
16. Deep learning for speaker characterization
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Hernando Pericás, Francisco Javier, Garriga Artieda, Daniel, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Hernando Pericás, Francisco Javier, and Garriga Artieda, Daniel
- Abstract
La caracterización de un locutor es una de las tareas más relevantes en muchas aplicaciones de inteligencia artificial. Del mismo modo que estas tecnologías mejoran y se aumenta la cantidad de datos disponibles, es también importante adaptarlas a distintos idiomas y contextos. En este proyecto, se propone una red neuronal para clasificar el género, edad y acento de un locutor en catalán. Distintas variaciones serán exploradas, incluyendo algunas t´ecnicas punteras como el mecanismo de pooling basado en Double Multi-Head Attention. Por otro lado, se llevará a cabo análisis de datos con tal de obtener los mejores resultados posibles, incluyendo la aplicación de técnicas nivel estado del arte de aumento de datos. Algunos de los resultados son prometedores, al demostrar una considerable mejora respecto otras técnicas clásicas no basadas en aprendizaje automático., La caracterització d'un locutor és una de les tasques més rellevants en moltes aplicacions d'intel·ligència artificial. Tan bon punt s'afinen aquestes tecnologies i augmenta la quantitat de dades disponibles, és important adaptar-les a diferents idiomes i contexts. En aquest projecte, es proposa una xarxa neuronal per classificar el gènere, l'edat i l'accent d'un parlant de català. Vàries variacions dels blocs més convencionals seran explorades, incloent algunes tècniques punteres com un mecanisme de pooling basat en Double Multi- Head Attention. Per altra banda, es durà a terme anàlisis de dades per tal de millorar els resultats obtinguts, incloent l'aplicació de tècniques estat de l'art d'augment de dades. Alguns dels resultats són força prometedors, al demostrar una considerable millora respecte altres tècniques clàssiques no basades en l'aprenentatge automàtic., Speech characterization is one of the most relevant tasks in a lot of voice-related artificial intelligence applications. As these technologies thrive and the amount of data available increases, it is also salient their adaptation to different languages and contexts. In this project, a network to classify the gender, age and accent of a Catalan speaker through their voice is proposed. Different variations of the main models blocks are going to be explored, including some innovative techniques as the Double Multi-Head Attention pooling mechanism. In addition, some data analysis- including the application of some state-of-art voice data augmentation techniques- will be done aiming for better results. Some results show strong promise, as they indicate improvement in comparison to some classical methods not based on machine learning.
- Published
- 2022
17. Local voice command understanding with limited resources platforms using AI
- Author
-
Universitat Politècnica de Catalunya. Departament d'Enginyeria Telemàtica, Paradells Aspas, Josep, Huerta Casado, Iván, Escrig Escrig, Josep, Sánchez i Deutsch, Sergi, Universitat Politècnica de Catalunya. Departament d'Enginyeria Telemàtica, Paradells Aspas, Josep, Huerta Casado, Iván, Escrig Escrig, Josep, and Sánchez i Deutsch, Sergi
- Published
- 2022
18. Validació i classificació d'àudio del projecte 'Common Voice'
- Author
-
Ramírez Martí, Carla, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and Esquerra Llucià, Ignasi
- Subjects
Forced alignment ,Català ,Automatic speech recognition ,Alineament forçat ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Speech ,Processament de la parla ,Reconeixement automàtic de la parla ,Speech recognition ,Parla - Abstract
Common Voice és un projecte que convida a la gent a donar la seva veu en la seva llengua materna amb el propòsit de reunir corpus de veus. Aquests corpus, disponibles en més de noranta idiomes, estan formats per una gran quantitat d’àudios curts, en els quals els usuaris es graven llegint una frase, i es poden utilitzar per millorar els sistemes de reconeixement i síntesi de parla. Precisament en català la majoria d’aquests sistemes actualment necessiten millores en els seus models i la base de dades de Common Voice pot arribar a ser de gran utilitat. Un dels seus avantatges és l'accessibilitat per a tothom, tant per la gent que vol desenvolupar sistemes de reconeixement com per la que vol proporcionar la seva veu. Per aquest motiu, aquest projecte utilitza el corpus català amb la intenció de validar-lo, intentant generar una segmentació fonètica dels àudios i posteriorment analitzant la precisió de les etiquetes, amb l’objectiu de poder contribuir en el desenvolupament de les tecnologies de la parla, a més d’adquirir coneixements sobre el funcionament de gestió de dades i entrenament de models amb xarxes neuronals. Inicialment, es pretenia processar la base de dades completa, formada per 25 GB de dades i més de 1000 hores gravades, però això requereix una gran quantitat de temps i de recursos computacionals, així que s’ha optat per seleccionar un conjunt reduït de dades i treballar a menor escala. El procediment ha sigut realitzar un alineament forçat amb els àudios i les seves transcripcions amb els programes Festival i Montreal Forced Aligner. Per aquest últim s’ha necessitat entrenar un model acústic, utilitzant el mateix corpus de Common Voice però amb diferents arxius. Finalment s’ha analitzat la precisió temporal de les etiquetes resultants, en les que s’ha vist que no eren del tot perfectes. Common Voice es un proyecto que invita a la gente a donar su voz en su lengua materna con el propósito de reunir corpus de voz. Estos corpus, disponibles en más de noventa idiomas, estan formados por una gran cantidad de audios cortos, en los que los usuarios se graban leyendo una frase, y se pueden utilizar para mejorar los sistemes de reconocimiento y síntesi del habla. Precisamente en catalán la mayoría de estos sistemas actualmente necesitan mejoras en sus models y la base de datos de Common Voice puede llegar a ser de gran utilidad. Una de sus ventajas es la accesibilidad para todo el mundo, tanto para la gente que quiere desarrollar sistemas de reconocimiento como para la que quiere proporcionar su voz. Por eso, este proyecto utiliza el corpus catalán con la intención de validarlo, intentando generar una segmentación fonética de los audios y posteriormente analizando la precisión de las etiquetas, con el objetivo de poder contribuir con el desarrollo de las tecnologías del habla, además de adquirir conocimientos sobre el funcionamiento de gestión de datos y entrenamiento de modelos con redes neuronales. Inicialmente, se pretendía procesar la base de datos completa, formada por 25 GB de datos y más de 1000 horas grabadas, pero esto requiere una gran cantidad de tiempo y de recursos computacionales, así que se ha optado por seleccionar un conjunto reducido de datos y trabajar a menor escala. El procedimiento ha sido realizar un alineamiento forzado con los audios y sus transcripciones con los programas Festival y Montreal Forced Aligner. Para este último se ha necesitado entrenar un modelo acústico, usando el mismo corpus de Common Voice pero con diferentes archivos. Finalmente se ha analizado la precisión temporal de las etiquetas resultantes, en las que se ha visto que no eran del todo perfectas. Common Voice is a project that invites people to donate their voice in their mother tongue in order to collect speech corpora. These corpora, available in more than ninety languages, consist of a large quantity of short audio files, in which users record themselves reading a sentence, and can be used to improve speech recognition and synthesis systems. In catalan, most of these systems currently need improvement in their models and the Common Voice dataset may be very helpful. One of its advantages is the accessibility for everyone, both for people who want to develop speech recognition systems and for people who want to provide their voice data. For this reason, this project uses the catalan corpus with the purpose of validating it, generating a phonetic segmentation of the audios and subsequently analyzing the labeling precision, with the aim of being able to contribute in the development of speech technologies, as well as gaining knowledge about data management and model training. The initial idea was processing the whole dataset, consisting of 25 GB of data and more than 1000 hours of recording, but this requires a large amount of time and computing resources, so a later choice was selecting a reduced set of audios and work on a smaller scale. The procedure was performing forced alignment on the audios and their orthographic transcriptions with Festival and Montreal Forced Aligner. For the latter, the training of a new acoustic model was needed, using the same Common Voice corpus but with different files. Finally the accuracy of the labels was analyzed, but the results showed that they were not entirely accurate.
- Published
- 2022
19. Local voice command understanding with limited resources platforms using AI
- Author
-
Sánchez i Deutsch, Sergi, Universitat Politècnica de Catalunya. Departament d'Enginyeria Telemàtica, Paradells Aspas, Josep, Huerta Casado, Iván, and Escrig Escrig, Josep
- Subjects
Artificial intelligence ,aprendizaje profundo ,inteligencia artificial ,Intel·ligència artificial ,Automatic speech recognition ,deep learning ,Reconeixement automàtic de la parla ,keyword spotting ,command understanding ,reconocimiento de palabras clave ,procesado del lenguaje natural ,Natural language processing (Computer science) ,Machine learning ,Aprenentatge automàtic ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Processament de la parla ,Speech processing systems ,natural language processing ,Tractament del llenguatge natural (Informàtica) ,reconocimiento del habla ,speech processing - Published
- 2022
20. Deep learning for speaker characterization
- Author
-
Garriga Artieda, Daniel, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and Hernando Pericás, Francisco Javier
- Subjects
Neural Networks ,Procesado del Habla ,Speech Processing ,Deep learning ,Neural networks (Computer science) ,Machine learning ,Aprenentatge automàtic ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Redes Neuronales ,Processament de la parla ,Xarxes neuronals (Informàtica) ,Speech processing systems ,Aprendizaje Automático ,Aprenentatge profund - Abstract
La caracterización de un locutor es una de las tareas más relevantes en muchas aplicaciones de inteligencia artificial. Del mismo modo que estas tecnologías mejoran y se aumenta la cantidad de datos disponibles, es también importante adaptarlas a distintos idiomas y contextos. En este proyecto, se propone una red neuronal para clasificar el género, edad y acento de un locutor en catalán. Distintas variaciones serán exploradas, incluyendo algunas t´ecnicas punteras como el mecanismo de pooling basado en Double Multi-Head Attention. Por otro lado, se llevará a cabo análisis de datos con tal de obtener los mejores resultados posibles, incluyendo la aplicación de técnicas nivel estado del arte de aumento de datos. Algunos de los resultados son prometedores, al demostrar una considerable mejora respecto otras técnicas clásicas no basadas en aprendizaje automático. La caracterització d'un locutor és una de les tasques més rellevants en moltes aplicacions d'intel·ligència artificial. Tan bon punt s'afinen aquestes tecnologies i augmenta la quantitat de dades disponibles, és important adaptar-les a diferents idiomes i contexts. En aquest projecte, es proposa una xarxa neuronal per classificar el gènere, l'edat i l'accent d'un parlant de català. Vàries variacions dels blocs més convencionals seran explorades, incloent algunes tècniques punteres com un mecanisme de pooling basat en Double Multi- Head Attention. Per altra banda, es durà a terme anàlisis de dades per tal de millorar els resultats obtinguts, incloent l'aplicació de tècniques estat de l'art d'augment de dades. Alguns dels resultats són força prometedors, al demostrar una considerable millora respecte altres tècniques clàssiques no basades en l'aprenentatge automàtic. Speech characterization is one of the most relevant tasks in a lot of voice-related artificial intelligence applications. As these technologies thrive and the amount of data available increases, it is also salient their adaptation to different languages and contexts. In this project, a network to classify the gender, age and accent of a Catalan speaker through their voice is proposed. Different variations of the main models blocks are going to be explored, including some innovative techniques as the Double Multi-Head Attention pooling mechanism. In addition, some data analysis- including the application of some state-of-art voice data augmentation techniques- will be done aiming for better results. Some results show strong promise, as they indicate improvement in comparison to some classical methods not based on machine learning.
- Published
- 2022
21. Language modelling for speaker diarization in telephonic interviews
- Author
-
Miquel India, Javier Hernando, José A.R. Fonollosa, Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla
- Subjects
Neural networks (Computer science) ,Human-Computer Interaction ,Language modelling ,Speaker diarization ,Acoustic modelling ,LSTM neural networks ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Processament de la parla ,Xarxes neuronals (Informàtica) ,Speech processing systems ,Software ,Theoretical Computer Science - Abstract
The aim of this paper is to investigate the benefit of combining both language and acoustic modelling for speaker diarization. Although conventional systems only use acoustic features, in some scenarios linguistic data contain high discriminative speaker information, even more reliable than the acoustic ones. In this study we analyze how an appropriate fusion of both kind of features is able to obtain good results in these cases. The proposed system is based on an iterative algorithm where a LSTM network is used as a speaker classifier. The network is fed with character-level word embeddings and a GMM based acoustic score created with the output labels from previous iterations. The presented algorithm has been evaluated in a Call-Center database, which is composed of telephone interview audios. The combination of acoustic features and linguistic content shows a 84.29% improvement in terms of a word-level DER as compared to a HMM/VB baseline system. The results of this study confirms that linguistic content can be efficiently used for some speaker recognition tasks. This work was partially supported by the Spanish Project DeepVoice (TEC2015-69266-P) and by the project PID2019-107579RBI00/ AEI /10.13039/501100011033.
- Published
- 2023
- Full Text
- View/download PDF
22. Hippocampal and auditory contributions to speech segmentation
- Author
-
Neus Ramos-Escobar, Manuel Mercier, Agnès Trébuchon-Fonséca, Antoni Rodriguez-Fornells, Clément François, Daniele Schön, University of Barcelona, Institut de Neurosciences des Systèmes (INS), Aix Marseille Université (AMU)-Institut National de la Santé et de la Recherche Médicale (INSERM), Laboratoire Parole et Langage (LPL), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), ANR-16-CONV-0002,ILCB,ILCB: Institute of Language Communication and the Brain(2016), and ANR-16-CE28-0012,RALP,Effets de la stimulation rythmique sur le traitement du langage chez le sujet sain et chez l'enfant avec troubles du langage(2016)
- Subjects
hippocampus ,Cognitive Neuroscience ,Hipocamp (Cervell) ,frequency tagging ,Experimental and Cognitive Psychology ,speech segmentation ,Statistical Learning ,[SCCO]Cognitive science ,Neuropsychology and Physiological Psychology ,nervous system ,FOS: Biological sciences ,Quantitative Biology - Neurons and Cognition ,Speech Perception ,Humans ,Learning ,Speech ,Processament de la parla ,Neurons and Cognition (q-bio.NC) ,[SDV.NEU]Life Sciences [q-bio]/Neurons and Cognition [q-bio.NC] ,Speech processing systems ,sEEG ,Hippocampus (Brain) ,Language - Abstract
Statistical learning has been proposed as a mechanism to structure and segment the continuous flow of information in several sensory modalities. Previous studies proposed that the medial temporal lobe, and in particular the hippocampus, may be crucial to parse the stream in the visual modality. However, the involvement of the hippocampus in auditory statistical learning, and specifically in speech segmentation is less clear. To explore the role of the hippocampus in speech segmentation based on statistical learning, we exposed seven pharmaco-resistant temporal lobe epilepsy patients to a continuous stream of trisyllabic pseudowords and recorded intracranial stereotaxic electro-encephalography (sEEG). We used frequency-tagging analysis to quantify neuronal synchronization of the hippocampus and auditory regions to the temporal structure of words and syllables of the stream. Results show that while auditory regions highly respond to syllable frequency, the hippocampus responds mostly to word frequency. These findings provide direct evidence of the involvement of the hippocampus in speech segmentation process and suggest a hierarchical organization of auditory information during speech processing., Cortex, Elsevier, 2022
- Published
- 2022
- Full Text
- View/download PDF
23. Influence of TTS systems performance on reaction times in people with aphasia
- Author
-
Ineke van der Meulen, Giorgia Cistola, Mireia Farrús, Alex Peiró-Lilja, Guillermo Cámbara, and Rehabilitation Medicine
- Subjects
medicine.medical_specialty ,Technology ,jitter ,reading impairments ,QH301-705.5 ,media_common.quotation_subject ,QC1-999 ,Speech synthesis ,Intelligibility (communication) ,Audiology ,computer.software_genre ,Voice analysis ,Naturalness ,Reading (process) ,Aphasia ,medicine ,General Materials Science ,Active listening ,Speech processing systems ,Biology (General) ,Instrumentation ,QD1-999 ,Human voice ,media_common ,Comprensió ,Fluid Flow and Transfer Processes ,intelligibility ,Process Chemistry and Technology ,Physics ,General Engineering ,shimmer ,Engineering (General). Civil engineering (General) ,aphasia ,Computer Science Applications ,Chemistry ,naturalness ,text-to-speech systems ,Processament de la parla ,medicine.symptom ,TA1-2040 ,Psychology ,Comprehension ,computer ,Afàsia - Abstract
Text-to-speech (TTS) systems provide fundamental reading support for people with aphasia and reading difficulties. However, artificial voices are more difficult to process than natural voices. The current study is an extended analysis of the results of a clinical experiment investigating which, among three artificial voices and a digitised human voice, is more suitable for people with aphasia and reading impairments. Such results show that the voice synthesised with Ogmios TTS, a concatenative speech synthesis system, caused significantly slower reaction times than the other three voices used in the experiment. The present study explores whether and what voice quality metrics are linked to delayed reaction times. For this purpose, the voices were analysed using an automatic assessment of intelligibility, naturalness, and jitter and shimmer voice quality parameters. This analysis revealed that Ogmios TTS, in general, performed worse than the other voices in all parameters. These observations could explain the significantly delayed reaction times in people with aphasia and reading impairments when listening to Ogmios TTS and could open up consideration about which TTS to choose for compensative devices for these patients based on the voice analysis of these parameters.
- Published
- 2021
24. Desenvolupament d'eines de veu en català pel projecte 'Common Voice'
- Author
-
Arbiol Pla, Anna, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and Esquerra Llucià, Ignasi
- Subjects
Catalan language ,Català ,Common voice ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Processament de la parla ,Speech processing systems ,mozilla ,tecnologia de la parla - Abstract
Un projecte de tecnologia de la parla en català el qual fa servir la base de dades del Common Voice, de Mozilla, en català a partir d’automatitzar cerques d’interès respecte tota la informació que emmagatzema i crear una segmentació fonètica per crear una nova veu, i per tal de permetre la creació de programes de reconeixement i síntesi de veu posteriors. Un proyecto de tecnología del habla en catalán que utiliza la base de datos del Common Voice, de Mozilla, en catalán a partir de automatizar búsquedas de interés respecto toda la información que almacena y crear una segmentación fonética para la creación de una nueva voz, y útil para permitir la creación de programas de reconocimiento y síntesis de voz posteriores. A Catalan speech technology project that uses Mozilla's Common Voice database in Catalan to automate searches of interest for all the information that it stores and create a phonetic segmentation to create a new voice, and to allow the creation of subsequent speech recognition and synthesis programs.
- Published
- 2021
25. Estudi i implementació d'un assistent de veu independent del núvol
- Author
-
Universitat Politècnica de Catalunya. Departament de Física, Sellarès González, Jordi, Jorba Olmeda, Oriol, Universitat Politècnica de Catalunya. Departament de Física, Sellarès González, Jordi, and Jorba Olmeda, Oriol
- Abstract
Aquest estudi té com a finalitat principal aconseguir que l’assistent de veu Mycroft funcioni de forma independent al núvol i que pugui operar sense necessitat d’estar connectat a internet. Aquestes necessitats impliquen que els diferents servidors que permeten el funcionament de l’assistent funcionin de forma local al dispositiu i disposin de totes les dades necessàries per operar.
- Published
- 2021
26. Self-supervised deep learning approaches to speaker recognition: A Ph.D. Thesis overview
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla, Khan, Umair, Hernando Pericás, Francisco Javier, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla, Khan, Umair, and Hernando Pericás, Francisco Javier
- Abstract
Recent advances in Deep Learning (DL) for speaker recognition have improved the performance but are constrained to the need of labels for the background data, which is difficult in prac- tice. In i-vector based speaker recognition, cosine (unsuper- vised) and PLDA (supervised) are the basic scoring techniques, with a big performance gap between the two. In this thesis we tried to fill this gap without using speaker labels in several ways. We applied Restricted Boltzmann Machine (RBM) vectors for the tasks of speaker clustering and tracking in TV broadcast shows. The experiments on AGORA database show that us- ing this approach we gain a relative improvement of 12% and 11% for speaker clustering and tracking tasks, respectively. We also applied DL techniques in order to increase the discrimina- tive power of i-vectors in speaker verification task, for which we have proposed the use of autoencoder in several ways, i.e., (1) as a pre-training for a Deep Neural Network (DNN), (2) as a near- est neighbor autoencoder for i-vectors, (3) as an average pooled nearest neighbor autoencoder. The experiments on VoxCeleb database show that we gain a relative improvement of 21%, 42% and 53%, using the three systems respectively. Finally we also proposed a self-supervised end-to-end speaker verification system. The architecture is based on a Convolutional Neural Network (CNN), trained as a siamese network with multiple branches. From the results we can see that our system shows comparable performance to a supervised baseline, This work was supported by the project PID2019-107579RBI00 / AEI / 10.13039/501100011033, Peer Reviewed, Postprint (published version)
- Published
- 2021
27. Predicting emotion in speech: a Deep Learning approach using Attention mechanisms
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Hernando Pericás, Francisco Javier, Aromí Leaverton, Daniel, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Hernando Pericás, Francisco Javier, and Aromí Leaverton, Daniel
- Abstract
Speech Emotion Recognition (SER) has recently become a popular field of research because of its implications in human-computer interaction. In this study, the emotional state of the speaker is successfully predicted by using Deep Convolutional Neural Networks to automatically extract features from the spectrogram of a speech signal. Parting from a baseline model that uses a statistical approach to pooling, an alternative method is proposed by incorporating Attention mechanisms as a pooling strategy. Additionally, multi-task learning is explored as an improvement over the baseline model by assigning language recognition as an auxiliary task. The final results show a remarkable improvement in classification accuracy in respect to previous more conventional techniques, in particular Gaussian Mixture Models and i-vectors, as well as a notable improvement in performance of the proposed Attention mechanisms over statistical pooling., En las últimas décadas, Speech Emotion Recognition (SER), o el reconocimiento de emociones por voz, ha generado un fuerte interés en el ámbito del tratamiento del habla por sus implicaciones en la interacción humano-computador. En este trabajo, se consigue reconocer el estado emocional del hablante mediante redes convolucionales profundas, capaces de extraer de manera automática características contenidas en el espectrograma de la señal de voz. Partiendo de un modelo que utiliza análisis estadístico para pooling, se propone una estrategia alternativa para mejorar el rendimiento incorporando mecanismos de Atención. Como mejora añadida, se explora el campo del multi-task learning definiendo el reconocimiento del idioma como tasca auxiliar para el modelo. Los resultados obtenidos reflejan una mejora substancial en la precisión comparado con anteriores técnicas más convencionales, concretamente Gaussian Mixture Models y i-vectors, y una mejora notable en la precisión de los mecanismos de Atención respecto al pooling estadístico., En les últimes dècades, Speech Emotion Recognition (SER), o el Reconeixement d'Emocions per Veu, ha generat fort interès en l'àmbit del tractament de la parla per a les implicacions que presenta en la interacció humà-computador. En aquest treball s'aconsegueix reconèixer l'estat emocional del parlant utilitzant xarxes neuronals profundes que extreuen de manera automàtica característiques contingudes en l'espectrograma del senyal de veu. Partint d'un model que utilitza anàlisi estadística per a pooling, es proposa una estratègia alternativa per a millorar el rendiment incorporant mecanismes d'Atenció. Com a millora afegida, s'explora el camp del mulit-task learning definint el reconeixement de l'idioma com a tasca auxiliar per al model. Els resultats finals obtinguts reflecteixen una millora substancial en la precisió comparat amb anteriors mètodes, concretament respecte Gaussian Mixture Models i i-vectors, i una millora notable en la precisió dels mecanismes d'Atenció respecte el pooling estadístic.
- Published
- 2021
28. Double multi-head attention for speaker verification
- Author
-
Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla, India Massana, Miquel Àngel, Safari, Pooyan, Hernando Pericás, Francisco Javier, Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla, India Massana, Miquel Àngel, Safari, Pooyan, and Hernando Pericás, Francisco Javier
- Abstract
Most state-of-the-art Deep Learning systems for text-independent speaker verification are based on speaker embedding extractors. These architectures are commonly composed of a feature extractor front-end together with a pooling layer to encode variable-length utterances into fixed-length speaker vectors. In this paper we present Double Multi-Head Attention (MHA) pooling, which extends our previous approach based on Self MHA. An additional self attention layer is added to the pooling layer that summarizes the context vectors produced by MHA into a unique speaker representation. This method enhances the pooling mechanism by giving weights to the information captured for each head and it results in creating more discriminative speaker embeddings. We have evaluated our approach with the VoxCeleb2 dataset. Our results show 6.09% and 5.23% relative improvement in terms of EER compared to Self Attention pooling and Self MHA, respectively. According to the obtained results, Double MHA has shown to be an excellent approach to efficiently select the most relevant features captured by the CNN-based front-ends from the speech signal., This work was supported by the Spanish project PID2019-107579RBI00 / AEI / 10.13039/501100011033., Peer Reviewed, Postprint (author's final draft)
- Published
- 2021
29. Anàlisi de sentiment per a textos curts en català i castellà aprofitant dades no supervisades
- Author
-
Universitat Politècnica de Catalunya. Departament de Ciències de la Computació, Moreno Bilbao, M. Asunción, Ruiz Costa-Jussà, Marta, Navarrete Jimenez, Daniel, Universitat Politècnica de Catalunya. Departament de Ciències de la Computació, Moreno Bilbao, M. Asunción, Ruiz Costa-Jussà, Marta, and Navarrete Jimenez, Daniel
- Abstract
There may be a lot of abusive behaviour in conversations between teenagers, which take place through social media. In this project, we develop classifiers to find out which texts present abuse such as violence, sexual behaviour, disorder, anxiety... For this reason, we use different classifiers that take advantage of the most recent techniques based on language modeling using deep neural networks, namely Transformers. But we find it difficult to obtain supervised data, i.e. data tagged with the feeling it contains. Luckily, thanks to the countless sources of information available on the Internet, we can get unsupervised data and examples of text on the Internet. Consequently, this project aims to explore the possibility of using unsupervised data, beyond using a supervised set to train a system in the task of sentiment classification. More specifically in short texts, in informal contexts and in Catalan and Spanish. We have a set of about 200,000 supervised samples and a set of 300,000 unsupervised samples. We will introduce and study different models of Transformers (BERT, GAN- BERT, XLM-RoBERTa and ELECTRA) and their performance in the work of sentiment analysis. To finish with, based on models that achieve a better score in the binary classification task of feelings, i.e. with ELECTRA and XLM-RoBERTa, we construct a multi- label classifier., En las conversaciones entre adolescentes, que se dan por medio de las redes sociales, pueden existir muchos comportamientos abusivos. En este proyecto desarrollamos clasificadores que detecten qué textos presentan algún abuso como violencia, conductas sexuales, desórdenes, ansiedad... Por este motivo, usamos diferentes clasificadores que aprovechan las técnicas más recientes basadas en modelado de lenguaje mediante redes neuronales profundas, concretamente Transformers. Pero nos encontramos con la dificultad de obtener datos supervisados, es decir datos etiquetados con el sentimiento que contiene. Por suerte, gracias a la infinidad de fuentes de información de las que disponemos en la red, podemos conseguir datos y ejemplos de texto no supervisado a internet. Por consiguiente, este proyecto quiere explorar la posibilidad de utilizar datos no supervisados, más allá de usar un conjunto de datos supervisado para entrenar un sistema en la tarea de clasificación de sentimientos. Más concretamente en textos cortos, en contextos informales y de lengua catalana y castellana. Contamos con un set de cerca de 200.000 muestras supervisadas y un set de 300.000 muestras no supervisadas. Introduciremos y estudiaremos diferentes modelos de Transformers (BERT, GAN-BERT, XLM-RoBERTa y ELECTRA) y su rendimiento en la tarea de análisis de sentimientos. Finalmente, a partir de los modelos que consiguen una mejor puntuación en la tarea de clasificación binaria de sentimientos, es decir con ELECTRA y XLM-RoBERTa, construimos un clasificador multi-etiqueta., En les converses entre adolescents, que es donen per mitjà de les xarxes socials, poden existir molts comportaments abusius. En aquesta tesi desenvolupem classificadors que detectin quins textos presenten algun abús com violència, conductes sexuals, desordres, ansietat... Per aquest motiu, faig servir diferents classificadors que aprofiten les tècniques més recents basades en modelat de llenguatge mitjançant xarxes neuronals profundes, concretament Transformers. Però ens trobem amb la dificultat d?obtenir dades supervisades, és a dir dades etiquetades amb el sentiment que conté. Per sort, gràcies a la infinitat de fonts d?informació de les que disposem a la xarxa, podem aconseguir dades i exemples de text no supervisat a internet. Per consegüent, aquest projecte vol explorar la possibilitat d'utilitzar dades no supervisades, més enllà de fer servir un set supervisat per entrenar un sistema en la tasca de classificació de sentiments. Més concretament en textos curts, en contextos informals i de llengua catalana i castellana. Comptem amb un set de prop de 200.000 mostres supervisades i un set de 300.000 mostres no supervisades. Introduirem i estudiarem diferents models de Transformers (BERT,GAN-BERT,XLM-Roberta i Electra) i el seu rendiment en la tasca d'anàlisi de sentiments. Finalment, a partir dels models que aconsegueixen una millor puntuació en la tasca de classificació binària de sentiments, és a dir amb Electra i XLM-Roberta, construïm un classificador multi-label
- Published
- 2021
30. Desenvolupament d'eines de veu en català pel projecte 'Common Voice'
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Esquerra Llucià, Ignasi, Arbiol Pla, Anna, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Esquerra Llucià, Ignasi, and Arbiol Pla, Anna
- Abstract
Un projecte de tecnologia de la parla en català el qual fa servir la base de dades del Common Voice, de Mozilla, en català a partir d’automatitzar cerques d’interès respecte tota la informació que emmagatzema i crear una segmentació fonètica per crear una nova veu, i per tal de permetre la creació de programes de reconeixement i síntesi de veu posteriors., Un proyecto de tecnología del habla en catalán que utiliza la base de datos del Common Voice, de Mozilla, en catalán a partir de automatizar búsquedas de interés respecto toda la información que almacena y crear una segmentación fonética para la creación de una nueva voz, y útil para permitir la creación de programas de reconocimiento y síntesis de voz posteriores., A Catalan speech technology project that uses Mozilla's Common Voice database in Catalan to automate searches of interest for all the information that it stores and create a phonetic segmentation to create a new voice, and to allow the creation of subsequent speech recognition and synthesis programs.
- Published
- 2021
31. Efficient keyword spotting by capturing long-range interactions with temporal lambda networks
- Author
-
Universitat Politècnica de Catalunya. Departament de Ciències de la Computació, Tura Vecino, Biel, Escuder Folch, Santiago, Diego, Ferran, Segura Perales, Carlos, Luque Serrano, Jordi, Universitat Politècnica de Catalunya. Departament de Ciències de la Computació, Tura Vecino, Biel, Escuder Folch, Santiago, Diego, Ferran, Segura Perales, Carlos, and Luque Serrano, Jordi
- Abstract
Models based on attention mechanisms have shown unprecedented speech recognition performance. However, they are computationally expensive and unnecessarily complex for keyword spotting, a task targeted to small-footprint devices. This work explores the application of Lambda networks, an alternative framework for capturing long-range interactions without attention, for the keyword spotting task. We propose a novel ResNet-based model by swapping the residual blocks by temporal Lambda layers. Furthermore, the proposed architecture is built upon uni-dimensional temporal convolutions that further reduce its complexity. The presented model does not only reach state-of-the-art accuracies on the Google Speech Commands dataset, but it is 85% and 65% lighter than its Transformer-based (KWT) and convolutional (ResNet15) counterparts while being up to 100× faster. To the best of our knowledge, this is the first attempt to explore the Lambda framework within the speech domain and therefore, we unravel further research of new interfaces based on this architecture., Peer Reviewed, Postprint (author's final draft)
- Published
- 2021
32. Learning how to divert attention in multilingual machine translation to mitigate gender bias
- Author
-
Universitat Politècnica de Catalunya. Departament de Ciències de la Computació, Ruiz Costa-Jussà, Marta, Escolano Peinado, Carlos, Crucera Barrero, Pablo, Universitat Politècnica de Catalunya. Departament de Ciències de la Computació, Ruiz Costa-Jussà, Marta, Escolano Peinado, Carlos, and Crucera Barrero, Pablo
- Abstract
Deep learning has aroused over the past years as a promising technique in AI. Implementing algorithms that allow systems to learn with applications in several fields has made a difference with the conventional rule coding that had multiple limitations. Since successful experiments within this scope have taken place, the limits of the development of intelligent machines seem to have faded out. However, this is still not a flawless procedure: there is a great number of improvements ahead to be performed in order to obtain better results. One of these issues is the presence of stereotypes in large data sets, a generalized problem in many applications of Deep Learning. In the case of Neural Machine Translation, this phenomenon leads to gender-biased inaccurate translations. In this thesis, our commitment is to work on developing a modification of the attention mechanism (within the architecture of NMT) that can mitigate such bias. Attention controls the amount of context that is used in Neural Machine Translation. The motivation of this work is that the attention mechanism for different types of words, e.g. words with different amounts of dependencies, should be different. The concentration or diversion of context information both at encoding and decoding levels may differ depending on the studied biases and language. We study the effect of controlling this amount of attention both by modifying the attention mechanism at the encoding and decoding level, for self and inter-attention. We evaluate this for the case of mitigating biases in a multilingual setting on a recent NMT architecture: the Transformer. The results show a similar quality of translation as the baseline model in terms of accuracy, but outperforms the reference model in nearly all gender-bias indicators, yielding results that are encouraging for continuing exploring this line of research., El aprendizaje profundo ha surgido en los últimos años como una técnica prometedora en IA. La implementación de algoritmos que permiten que los sistemas aprendan con aplicaciones en varios campos ha marcado la diferencia con la codificación de reglas convencional que tenía múltiples limitaciones. Desde que se han llevado a cabo experimentos exitosos dentro de este ámbito, los límites del desarrollo de las máquinas inteligentes parecen haberse desvanecido. Sin embargo, este todavía no es un procedimiento impecable: hay un gran número de mejoras por realizar para obtener mejores resultados. Uno de estos problemas es la presencia de estereotipos en grandes conjuntos de datos, un problema generalizado en muchas aplicaciones de Deep Learning. En el caso de la traducción automática neuronal, este fenómeno conduce a traducciones inexactas con sesgo de género. En esta tesis, nuestro compromiso es trabajar en el desarrollo de una modificación del mecanismo de atención (dentro de la arquitectura de NMT) que pueda mitigar dicho sesgo. La atención controla la cantidad de contexto que se utiliza en la traducción automática neuronal. La motivación de este trabajo es que el mecanismo de atención para diferentes tipos de palabras, por ejemplo palabras con diferentes cantidades de dependencias, deberían ser diferentes. La concentración o el desvío de la información del contexto, tanto a nivel de codificación como de decodificación, puede diferir dependiendo de los sesgos y el lenguaje estudiados. Estudiamos el efecto de controlar esta cantidad de atención modificando el mecanismo de atención a nivel de codificación y decodificación, para la atención propia y la atención cruzada. Evaluamos esto para el caso de mitigar los sesgos en un entorno multilingüe en una arquitectura NMT reciente: el Transformer. Los resultados muestran una calidad de traducción similar al modelo de línea de base en términos de precisión, pero supera al modelo de referencia en casi todos los indicadores de ses, L’aprenentatge profund ha sorgit durant els darrers anys com una tècnica prometedora en IA. La implementació d’algoritmes que permeten els sistemes aprendre amb aplicacions en diversos camps ha marcat la diferència amb la codificació de regles convencionals que tenia múltiples limitacions. Atès que s'han dut a terme experiments amb èxit dins d'aquest àmbit, els límits del desenvolupament de màquines intel·ligents semblen haver esvaït. Tot i això, aquest no és encara un procediment impecable: hi ha un gran nombre de millores per assolir per obtenir millors resultats. Un d’aquests problemes és la presència d’estereotips en grans conjunts de dades, un problema generalitzat en moltes aplicacions de Deep Learning. En el cas de la traducció automàtica neuronal, aquest fenomen condueix a traduccions inexactes esbiaixades en quant a gènere. En aquesta tesi, el nostre compromís és treballar en el desenvolupament d’una modificació del mecanisme d’atenció (dins de l’arquitectura de NMT) que pugui mitigar aquest biaix. L’atenció controla la quantitat de context que s’utilitza a la traducció automàtica de neurones. La motivació d’aquest treball és que el mecanisme d’atenció de diferents tipus de paraules, com per exemple, les paraules amb diferents quantitats de dependències, haurien de ser diferents. La concentració o diversificació de la informació de context tant a nivells de codificació com de descodificació pot variar en funció dels biaixos i del llenguatge estudiats. Estudiem l’efecte de controlar aquesta quantitat d’atenció modificant el mecanisme d’atenció a nivell de codificació i descodificació, per a l’interès i la interatenció. Ho avaluem per al cas de biaixos mitigadors en un entorn multilingüe sobre una arquitectura NMT recent: el transformador. Els resultats mostren una qualitat de traducció similar a la del model de referència en termes de precisió, però supera el model de referència en gairebé tots els indicadors de biaix de gènere, donant resultats que són enco
- Published
- 2021
33. Voice interaction via distributed microphones
- Author
-
Universitat Politècnica de Catalunya. Departament d'Enginyeria Telemàtica, Paradells Aspas, Josep, Merlos Pieri, Lluís, Universitat Politècnica de Catalunya. Departament d'Enginyeria Telemàtica, Paradells Aspas, Josep, and Merlos Pieri, Lluís
- Published
- 2021
34. AI reflections in 2020
- Author
-
Universitat Politècnica de Catalunya. Departament de Ciències de la Computació, Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla, Jobin, Anna, Man, Kingson, Damasio, Antonio, Kaissis, Georgios, Braren, Rickmer, Stoyanovich, Julia, Van Bavel, Jay J., West, Tessa V., Mittelstadt, Brendt, Eshraghian, Jason, Ruiz Costa-Jussà, Marta, Tzachor, Asaf, Jamjoom, Aimun A. B., Taddeo, Mariarosaria, Sinibaldi, Edoardo, Hu, Yipeng, Luengo Oroz, Miguel, Universitat Politècnica de Catalunya. Departament de Ciències de la Computació, Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla, Jobin, Anna, Man, Kingson, Damasio, Antonio, Kaissis, Georgios, Braren, Rickmer, Stoyanovich, Julia, Van Bavel, Jay J., West, Tessa V., Mittelstadt, Brendt, Eshraghian, Jason, Ruiz Costa-Jussà, Marta, Tzachor, Asaf, Jamjoom, Aimun A. B., Taddeo, Mariarosaria, Sinibaldi, Edoardo, Hu, Yipeng, and Luengo Oroz, Miguel
- Abstract
We invited authors of selected Comments and Perspectives published in Nature Machine Intelligence in the latter half of 2019 and first half of 2020 to describe how their topic has developed, what their thoughts are about the challenges of 2020, and what they look forward to in 2021., Postprint (author's final draft)
- Published
- 2021
35. Emociones en señales de voz: reconocimiento con redes neuronales profundas.
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Hernando Pericás, Francisco Javier, Hernández Leal, Victor Emilio, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Hernando Pericás, Francisco Javier, and Hernández Leal, Victor Emilio
- Abstract
In recent years the research effort of different tasks is through neural network techniques. This work continues along this line and explores its possibilities in the task of speech emotion recognition (SER). In this work, we evaluate the effect of two points of interest, Loss functions and Data Augmentation: various variations of the Softmax function and its effect on the classification accuracies are evaluated and two data augmentation techniques are also explored, one of them related to the application of the system in driving situations., En los últimos años el esfuerzo de investigación de diferentes tareas es a través de técnicas de redes neuronales. Este trabajo continúa con esa línea y explora sus posibilidades en la tarea de reconocimiento de emociones en señales de voz (SER). En este trabajo se evalúan los efectos en dos puntos de interés, las funciones de pérdida y el Aumento de Datos: Se evalúan diversas variaciones de la función Softmax y su efecto en las accuracies de clasificación, también se exploran dos técnicas de aumento de datos, una de ellas relacionada con la aplicación del sistema en situaciones de conducción., En els últims anys l'esforç d'investigació de diferents tasques és a través de tècniques de xarxes neuronals. Aquest treball continua amb aquesta línia i explora les seves possibilitats en la tasca de reconeixement d'emocions en senyals de veu (SER). En aquest treball s'avaluen els efectes en dos punts d'interès, les funcions de pèrdua i l'augment de dades: S'avaluen diverses variacions de la funció Softmax i el seu efecte en les accuracies de classificació, també s'exploren dues tècniques d'augment de dades, una d'elles relacionada amb l'aplicació de sistema en situacions de conducció.
- Published
- 2021
36. Voice interaction via distributed microphones
- Author
-
Merlos Pieri, Lluís, Paradells Aspas, Josep, and Universitat Politècnica de Catalunya. Departament d'Enginyeria Telemàtica
- Subjects
Home automation ,Domótica ,Procesado del habla ,Microcontroladors ,Protocolos de redes de ordenadores ,Microcontroladores ,Domòtica ,Speech processing ,Computer network protocols ,Processament de la parla ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Speech processing systems ,Microcontrollers ,Protocols de xarxes d'ordinadors - Published
- 2021
37. Learning how to divert attention in multilingual machine translation to mitigate gender bias
- Author
-
Crucera Barrero, Pablo, Ruiz Costa-Jussà, Marta, Escolano Peinado, Carlos, and Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
- Subjects
Artificial intelligence ,Neural Machine Translation ,Informàtica::Intel·ligència artificial::Aprenentatge automàtic [Àrees temàtiques de la UPC] ,Aprendizaje profundo ,Intel·ligència artificial ,Aprendizaje automático ,Inteligencia artificial ,Machine Learning ,Deep Learning ,Machine Translation ,Gender Bias ,Aprenentatge automàtic ,Traducció automàtica ,Traducción automática ,Processament de la parla ,Speech processing systems ,Machine translating ,Natural Language Processing - Abstract
Deep learning has aroused over the past years as a promising technique in AI. Implementing algorithms that allow systems to learn with applications in several fields has made a difference with the conventional rule coding that had multiple limitations. Since successful experiments within this scope have taken place, the limits of the development of intelligent machines seem to have faded out. However, this is still not a flawless procedure: there is a great number of improvements ahead to be performed in order to obtain better results. One of these issues is the presence of stereotypes in large data sets, a generalized problem in many applications of Deep Learning. In the case of Neural Machine Translation, this phenomenon leads to gender-biased inaccurate translations. In this thesis, our commitment is to work on developing a modification of the attention mechanism (within the architecture of NMT) that can mitigate such bias. Attention controls the amount of context that is used in Neural Machine Translation. The motivation of this work is that the attention mechanism for different types of words, e.g. words with different amounts of dependencies, should be different. The concentration or diversion of context information both at encoding and decoding levels may differ depending on the studied biases and language. We study the effect of controlling this amount of attention both by modifying the attention mechanism at the encoding and decoding level, for self and inter-attention. We evaluate this for the case of mitigating biases in a multilingual setting on a recent NMT architecture: the Transformer. The results show a similar quality of translation as the baseline model in terms of accuracy, but outperforms the reference model in nearly all gender-bias indicators, yielding results that are encouraging for continuing exploring this line of research. El aprendizaje profundo ha surgido en los últimos años como una técnica prometedora en IA. La implementación de algoritmos que permiten que los sistemas aprendan con aplicaciones en varios campos ha marcado la diferencia con la codificación de reglas convencional que tenía múltiples limitaciones. Desde que se han llevado a cabo experimentos exitosos dentro de este ámbito, los límites del desarrollo de las máquinas inteligentes parecen haberse desvanecido. Sin embargo, este todavía no es un procedimiento impecable: hay un gran número de mejoras por realizar para obtener mejores resultados. Uno de estos problemas es la presencia de estereotipos en grandes conjuntos de datos, un problema generalizado en muchas aplicaciones de Deep Learning. En el caso de la traducción automática neuronal, este fenómeno conduce a traducciones inexactas con sesgo de género. En esta tesis, nuestro compromiso es trabajar en el desarrollo de una modificación del mecanismo de atención (dentro de la arquitectura de NMT) que pueda mitigar dicho sesgo. La atención controla la cantidad de contexto que se utiliza en la traducción automática neuronal. La motivación de este trabajo es que el mecanismo de atención para diferentes tipos de palabras, por ejemplo palabras con diferentes cantidades de dependencias, deberían ser diferentes. La concentración o el desvío de la información del contexto, tanto a nivel de codificación como de decodificación, puede diferir dependiendo de los sesgos y el lenguaje estudiados. Estudiamos el efecto de controlar esta cantidad de atención modificando el mecanismo de atención a nivel de codificación y decodificación, para la atención propia y la atención cruzada. Evaluamos esto para el caso de mitigar los sesgos en un entorno multilingüe en una arquitectura NMT reciente: el Transformer. Los resultados muestran una calidad de traducción similar al modelo de línea de base en términos de precisión, pero supera al modelo de referencia en casi todos los indicadores de sesgo de género, arrojando resultados que son alentadores para seguir explorando esta línea de investigación. L’aprenentatge profund ha sorgit durant els darrers anys com una tècnica prometedora en IA. La implementació d’algoritmes que permeten els sistemes aprendre amb aplicacions en diversos camps ha marcat la diferència amb la codificació de regles convencionals que tenia múltiples limitacions. Atès que s'han dut a terme experiments amb èxit dins d'aquest àmbit, els límits del desenvolupament de màquines intel·ligents semblen haver esvaït. Tot i això, aquest no és encara un procediment impecable: hi ha un gran nombre de millores per assolir per obtenir millors resultats. Un d’aquests problemes és la presència d’estereotips en grans conjunts de dades, un problema generalitzat en moltes aplicacions de Deep Learning. En el cas de la traducció automàtica neuronal, aquest fenomen condueix a traduccions inexactes esbiaixades en quant a gènere. En aquesta tesi, el nostre compromís és treballar en el desenvolupament d’una modificació del mecanisme d’atenció (dins de l’arquitectura de NMT) que pugui mitigar aquest biaix. L’atenció controla la quantitat de context que s’utilitza a la traducció automàtica de neurones. La motivació d’aquest treball és que el mecanisme d’atenció de diferents tipus de paraules, com per exemple, les paraules amb diferents quantitats de dependències, haurien de ser diferents. La concentració o diversificació de la informació de context tant a nivells de codificació com de descodificació pot variar en funció dels biaixos i del llenguatge estudiats. Estudiem l’efecte de controlar aquesta quantitat d’atenció modificant el mecanisme d’atenció a nivell de codificació i descodificació, per a l’interès i la interatenció. Ho avaluem per al cas de biaixos mitigadors en un entorn multilingüe sobre una arquitectura NMT recent: el transformador. Els resultats mostren una qualitat de traducció similar a la del model de referència en termes de precisió, però supera el model de referència en gairebé tots els indicadors de biaix de gènere, donant resultats que són encoratjadors per continuar explorant aquesta línia d’investigació
- Published
- 2021
38. Predicting emotion in speech: a Deep Learning approach using Attention mechanisms
- Author
-
Aromí Leaverton, Daniel, Hernando Pericás, Francisco Javier, and Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
- Subjects
Artificial intelligence ,aprendizaje profundo ,Informàtica::Intel·ligència artificial::Aprenentatge automàtic [Àrees temàtiques de la UPC] ,Intel·ligència artificial ,multi-task learning ,Imatges -- Processament ,neural networks ,redes neuronales convolucionales ,Human-computer interaction ,Interacció persona-ordinador ,attention ,reconocimiento de emociones por voz ,Neural networks (Computer science) ,tratamiento del habla ,Deep Learning ,Image processing ,speech emotion recognition ,Machine learning ,convolutional neural networks ,Aprenentatge automàtic ,Processament de la parla ,Xarxes neuronals (Informàtica) ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Speech processing systems ,speech processing - Abstract
Speech Emotion Recognition (SER) has recently become a popular field of research because of its implications in human-computer interaction. In this study, the emotional state of the speaker is successfully predicted by using Deep Convolutional Neural Networks to automatically extract features from the spectrogram of a speech signal. Parting from a baseline model that uses a statistical approach to pooling, an alternative method is proposed by incorporating Attention mechanisms as a pooling strategy. Additionally, multi-task learning is explored as an improvement over the baseline model by assigning language recognition as an auxiliary task. The final results show a remarkable improvement in classification accuracy in respect to previous more conventional techniques, in particular Gaussian Mixture Models and i-vectors, as well as a notable improvement in performance of the proposed Attention mechanisms over statistical pooling. En las últimas décadas, Speech Emotion Recognition (SER), o el reconocimiento de emociones por voz, ha generado un fuerte interés en el ámbito del tratamiento del habla por sus implicaciones en la interacción humano-computador. En este trabajo, se consigue reconocer el estado emocional del hablante mediante redes convolucionales profundas, capaces de extraer de manera automática características contenidas en el espectrograma de la señal de voz. Partiendo de un modelo que utiliza análisis estadístico para pooling, se propone una estrategia alternativa para mejorar el rendimiento incorporando mecanismos de Atención. Como mejora añadida, se explora el campo del multi-task learning definiendo el reconocimiento del idioma como tasca auxiliar para el modelo. Los resultados obtenidos reflejan una mejora substancial en la precisión comparado con anteriores técnicas más convencionales, concretamente Gaussian Mixture Models y i-vectors, y una mejora notable en la precisión de los mecanismos de Atención respecto al pooling estadístico. En les últimes dècades, Speech Emotion Recognition (SER), o el Reconeixement d'Emocions per Veu, ha generat fort interès en l'àmbit del tractament de la parla per a les implicacions que presenta en la interacció humà-computador. En aquest treball s'aconsegueix reconèixer l'estat emocional del parlant utilitzant xarxes neuronals profundes que extreuen de manera automàtica característiques contingudes en l'espectrograma del senyal de veu. Partint d'un model que utilitza anàlisi estadística per a pooling, es proposa una estratègia alternativa per a millorar el rendiment incorporant mecanismes d'Atenció. Com a millora afegida, s'explora el camp del mulit-task learning definint el reconeixement de l'idioma com a tasca auxiliar per al model. Els resultats finals obtinguts reflecteixen una millora substancial en la precisió comparat amb anteriors mètodes, concretament respecte Gaussian Mixture Models i i-vectors, i una millora notable en la precisió dels mecanismes d'Atenció respecte el pooling estadístic.
- Published
- 2021
39. AI reflections in 2020
- Author
-
Yipeng Hu, Julia Stoyanovich, Marta R. Costa-jussà, Rickmer Braren, Asaf Tzachor, Antonio R. Damasio, Miguel Luengo-Oroz, Tessa V. West, Kingson Man, Anna Jobin, Mariarosaria Taddeo, Aimun A B Jamjoom, Jay J. Van Bavel, Edoardo Sinibaldi, Georgios Kaissis, Jason K. Eshraghian, Brent Mittelstadt, Universitat Politècnica de Catalunya. Departament de Ciències de la Computació, and Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla
- Subjects
0301 basic medicine ,Cognitive science ,Computer Networks and Communications ,Human-Computer Interaction ,03 medical and health sciences ,030104 developmental biology ,0302 clinical medicine ,Artificial Intelligence ,Natural language processing (Computer science) ,Processament de la parla ,Sexisme en el llenguatge ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Computer Vision and Pattern Recognition ,Psychology ,030217 neurology & neurosurgery ,Software ,Sexism in language ,Machine Intelligence - Abstract
We invited authors of selected Comments and Perspectives published in Nature Machine Intelligence in the latter half of 2019 and first half of 2020 to describe how their topic has developed, what their thoughts are about the challenges of 2020, and what they look forward to in 2021.
- Published
- 2021
- Full Text
- View/download PDF
40. Efficient keyword spotting by capturing long-range interactions with temporal lambda networks
- Author
-
Tura, Biel, Escuder, Santiago, Diego, Ferran, Segura, Carlos, Luque, Jordi, and Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
- Subjects
Automatic speech recognition ,Complex networks ,Network architecture ,Lambda's ,Long range interactions ,Reconeixement automàtic de la parla ,Speech recognition ,Foot-print devices ,Longer-range interaction ,Speech recognition performance ,Convolution ,Keyword spotting ,Audio and Speech Processing (eess.AS) ,Model-based OPC ,Small footprints ,FOS: Electrical engineering, electronic engineering, information engineering ,Processament de la parla ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Speech processing systems ,Lambda network ,Lambda networks ,Electrical Engineering and Systems Science - Audio and Speech Processing ,Attention mechanisms - Abstract
Models based on attention mechanisms have shown unprecedented speech recognition performance. However, they are computationally expensive and unnecessarily complex for keyword spotting, a task targeted to small-footprint devices. This work explores the application of Lambda networks, an alternative framework for capturing long-range interactions without attention, for the keyword spotting task. We propose a novel \textit{ResNet}-based model by swapping the residual blocks by temporal Lambda layers. Furthermore, the proposed architecture is built upon uni-dimensional temporal convolutions that further reduce its complexity. The presented model does not only reach state-of-the-art accuracies on the Google Speech Commands dataset, but it is 85% and 65% lighter than its Transformer-based (KWT) and convolutional (Res15) counterparts while being up to 100 times faster. To the best of our knowledge, this is the first attempt to explore the Lambda framework within the speech domain and therefore, we unravel further research of new interfaces based on this architecture., Comment: speech recognition, keyword spotting, lambda networks
- Published
- 2021
41. Emociones en señales de voz: reconocimiento con redes neuronales profundas
- Author
-
Hernández Leal, Victor Emilio, Hernando Pericás, Francisco Javier, and Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
- Subjects
Neural networks (Computer science) ,redes neuronales ,Data Processing ,Neural Networks ,Procesado de habla ,Speech Processing ,procesado de datos ,Processament de la parla ,Xarxes neuronals (Informàtica) ,Speech processing systems ,Electronic data processing--Distributed processing ,Enginyeria de la telecomunicació::Processament del senyal [Àrees temàtiques de la UPC] ,Processament distribuït de dades - Abstract
In recent years the research effort of different tasks is through neural network techniques. This work continues along this line and explores its possibilities in the task of speech emotion recognition (SER). In this work, we evaluate the effect of two points of interest, Loss functions and Data Augmentation: various variations of the Softmax function and its effect on the classification accuracies are evaluated and two data augmentation techniques are also explored, one of them related to the application of the system in driving situations. En los últimos años el esfuerzo de investigación de diferentes tareas es a través de técnicas de redes neuronales. Este trabajo continúa con esa línea y explora sus posibilidades en la tarea de reconocimiento de emociones en señales de voz (SER). En este trabajo se evalúan los efectos en dos puntos de interés, las funciones de pérdida y el Aumento de Datos: Se evalúan diversas variaciones de la función Softmax y su efecto en las accuracies de clasificación, también se exploran dos técnicas de aumento de datos, una de ellas relacionada con la aplicación del sistema en situaciones de conducción. En els últims anys l'esforç d'investigació de diferents tasques és a través de tècniques de xarxes neuronals. Aquest treball continua amb aquesta línia i explora les seves possibilitats en la tasca de reconeixement d'emocions en senyals de veu (SER). En aquest treball s'avaluen els efectes en dos punts d'interès, les funcions de pèrdua i l'augment de dades: S'avaluen diverses variacions de la funció Softmax i el seu efecte en les accuracies de classificació, també s'exploren dues tècniques d'augment de dades, una d'elles relacionada amb l'aplicació de sistema en situacions de conducció.
- Published
- 2021
42. Anàlisi de sentiment per a textos curts en català i castellà aprofitant dades no supervisades
- Author
-
Navarrete Jimenez, Daniel, Moreno Bilbao, M. Asunción, Ruiz Costa-Jussà, Marta, and Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
- Subjects
Intelligent agents (Computer software) ,semi-supervised learning ,Transformer ,análisis de sentimiento ,ELECTRA ,GAN-BERT ,Enginyeria de la telecomunicació [Àrees temàtiques de la UPC] ,NLP ,aprendizaje semi-supervisado ,Neural networks (Computer science) ,Agents intel·ligents (Programari) ,sentiment analysis ,Processament de la parla ,Xarxes neuronals (Informàtica) ,Speech processing systems ,BERT - Abstract
There may be a lot of abusive behaviour in conversations between teenagers, which take place through social media. In this project, we develop classifiers to find out which texts present abuse such as violence, sexual behaviour, disorder, anxiety... For this reason, we use different classifiers that take advantage of the most recent techniques based on language modeling using deep neural networks, namely Transformers. But we find it difficult to obtain supervised data, i.e. data tagged with the feeling it contains. Luckily, thanks to the countless sources of information available on the Internet, we can get unsupervised data and examples of text on the Internet. Consequently, this project aims to explore the possibility of using unsupervised data, beyond using a supervised set to train a system in the task of sentiment classification. More specifically in short texts, in informal contexts and in Catalan and Spanish. We have a set of about 200,000 supervised samples and a set of 300,000 unsupervised samples. We will introduce and study different models of Transformers (BERT, GAN- BERT, XLM-RoBERTa and ELECTRA) and their performance in the work of sentiment analysis. To finish with, based on models that achieve a better score in the binary classification task of feelings, i.e. with ELECTRA and XLM-RoBERTa, we construct a multi- label classifier. En las conversaciones entre adolescentes, que se dan por medio de las redes sociales, pueden existir muchos comportamientos abusivos. En este proyecto desarrollamos clasificadores que detecten qué textos presentan algún abuso como violencia, conductas sexuales, desórdenes, ansiedad... Por este motivo, usamos diferentes clasificadores que aprovechan las técnicas más recientes basadas en modelado de lenguaje mediante redes neuronales profundas, concretamente Transformers. Pero nos encontramos con la dificultad de obtener datos supervisados, es decir datos etiquetados con el sentimiento que contiene. Por suerte, gracias a la infinidad de fuentes de información de las que disponemos en la red, podemos conseguir datos y ejemplos de texto no supervisado a internet. Por consiguiente, este proyecto quiere explorar la posibilidad de utilizar datos no supervisados, más allá de usar un conjunto de datos supervisado para entrenar un sistema en la tarea de clasificación de sentimientos. Más concretamente en textos cortos, en contextos informales y de lengua catalana y castellana. Contamos con un set de cerca de 200.000 muestras supervisadas y un set de 300.000 muestras no supervisadas. Introduciremos y estudiaremos diferentes modelos de Transformers (BERT, GAN-BERT, XLM-RoBERTa y ELECTRA) y su rendimiento en la tarea de análisis de sentimientos. Finalmente, a partir de los modelos que consiguen una mejor puntuación en la tarea de clasificación binaria de sentimientos, es decir con ELECTRA y XLM-RoBERTa, construimos un clasificador multi-etiqueta. En les converses entre adolescents, que es donen per mitjà de les xarxes socials, poden existir molts comportaments abusius. En aquesta tesi desenvolupem classificadors que detectin quins textos presenten algun abús com violència, conductes sexuals, desordres, ansietat... Per aquest motiu, faig servir diferents classificadors que aprofiten les tècniques més recents basades en modelat de llenguatge mitjançant xarxes neuronals profundes, concretament Transformers. Però ens trobem amb la dificultat d?obtenir dades supervisades, és a dir dades etiquetades amb el sentiment que conté. Per sort, gràcies a la infinitat de fonts d?informació de les que disposem a la xarxa, podem aconseguir dades i exemples de text no supervisat a internet. Per consegüent, aquest projecte vol explorar la possibilitat d'utilitzar dades no supervisades, més enllà de fer servir un set supervisat per entrenar un sistema en la tasca de classificació de sentiments. Més concretament en textos curts, en contextos informals i de llengua catalana i castellana. Comptem amb un set de prop de 200.000 mostres supervisades i un set de 300.000 mostres no supervisades. Introduirem i estudiarem diferents models de Transformers (BERT,GAN-BERT,XLM-Roberta i Electra) i el seu rendiment en la tasca d'anàlisi de sentiments. Finalment, a partir dels models que aconsegueixen una millor puntuació en la tasca de classificació binària de sentiments, és a dir amb Electra i XLM-Roberta, construïm un classificador multi-label
- Published
- 2021
43. Self-supervised deep learning approaches to speaker recognition: A Ph.D. Thesis overview
- Author
-
Javier Hernando, Umair Khan, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla
- Subjects
Computer science ,business.industry ,Speech recognition ,Deep learning ,Autoencoder ,Speaker recognition ,i-vector ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Speaker verification ,Processament de la parla ,Artificial intelligence ,Speech processing systems ,business ,Speaker embeddings ,CNN ,Aprenentatge profund - Abstract
Recent advances in Deep Learning (DL) for speaker recognition have improved the performance but are constrained to the need of labels for the background data, which is difficult in prac- tice. In i-vector based speaker recognition, cosine (unsuper- vised) and PLDA (supervised) are the basic scoring techniques, with a big performance gap between the two. In this thesis we tried to fill this gap without using speaker labels in several ways. We applied Restricted Boltzmann Machine (RBM) vectors for the tasks of speaker clustering and tracking in TV broadcast shows. The experiments on AGORA database show that us- ing this approach we gain a relative improvement of 12% and 11% for speaker clustering and tracking tasks, respectively. We also applied DL techniques in order to increase the discrimina- tive power of i-vectors in speaker verification task, for which we have proposed the use of autoencoder in several ways, i.e., (1) as a pre-training for a Deep Neural Network (DNN), (2) as a near- est neighbor autoencoder for i-vectors, (3) as an average pooled nearest neighbor autoencoder. The experiments on VoxCeleb database show that we gain a relative improvement of 21%, 42% and 53%, using the three systems respectively. Finally we also proposed a self-supervised end-to-end speaker verification system. The architecture is based on a Convolutional Neural Network (CNN), trained as a siamese network with multiple branches. From the results we can see that our system shows comparable performance to a supervised baseline This work was supported by the project PID2019-107579RBI00 / AEI / 10.13039/501100011033
- Published
- 2021
44. Estudi i implementació d'un assistent de veu independent del núvol
- Author
-
Jorba Olmeda, Oriol, Sellarès González, Jordi, and Universitat Politècnica de Catalunya. Departament de Física
- Subjects
Processament de la parla ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Assitent Veu Mycroft Offline Raspberry ,Speech processing systems ,So, imatge i multimèdia::Creació multimèdia::Producció audiovisual [Àrees temàtiques de la UPC] - Abstract
Aquest estudi té com a finalitat principal aconseguir que l’assistent de veu Mycroft funcioni de forma independent al núvol i que pugui operar sense necessitat d’estar connectat a internet. Aquestes necessitats impliquen que els diferents servidors que permeten el funcionament de l’assistent funcionin de forma local al dispositiu i disposin de totes les dades necessàries per operar.
- Published
- 2021
45. Double Multi-Head Attention for Speaker Verification
- Author
-
Miquel India, Javier Hernando, Pooyan Safari, Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla
- Subjects
FOS: Computer and information sciences ,Sound (cs.SD) ,Computer science ,Speech recognition ,Pooling ,Feature extraction ,Double attention ,Context (language use) ,Computer Science - Sound ,Discriminative model ,Audio and Speech Processing (eess.AS) ,Feature (machine learning) ,FOS: Electrical engineering, electronic engineering, information engineering ,Speech processing systems ,Artificial neural network ,business.industry ,Deep learning ,Speech processing ,Self multi-head attention ,Speaker verification ,Processament de la parla ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Artificial intelligence ,business ,Aprenentatge profund ,Electrical Engineering and Systems Science - Audio and Speech Processing - Abstract
Most state-of-the-art Deep Learning systems for text-independent speaker verification are based on speaker embedding extractors. These architectures are commonly composed of a feature extractor front-end together with a pooling layer to encode variable-length utterances into fixed-length speaker vectors. In this paper we present Double Multi-Head Attention (MHA) pooling, which extends our previous approach based on Self MHA. An additional self attention layer is added to the pooling layer that summarizes the context vectors produced by MHA into a unique speaker representation. This method enhances the pooling mechanism by giving weights to the information captured for each head and it results in creating more discriminative speaker embeddings. We have evaluated our approach with the VoxCeleb2 dataset. Our results show 6.09% and 5.23% relative improvement in terms of EER compared to Self Attention pooling and Self MHA, respectively. According to the obtained results, Double MHA has shown to be an excellent approach to efficiently select the most relevant features captured by the CNN-based front-ends from the speech signal. This work was supported by the Spanish project PID2019-107579RBI00 / AEI / 10.13039/501100011033.
- Published
- 2020
46. Estimation of Information in Parallel Gaussian Channels via Model Order Selection
- Author
-
Ferran de Cabrera, Carlos Alejandro Lopez, Jaume Riba, Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and Universitat Politècnica de Catalunya. SPCOM - Grup de Recerca de Processament del Senyal i Comunicacions
- Subjects
Correlation coefficient ,Monotonic function ,Locally Most Powerful Invariant Test (LMPIT) ,02 engineering and technology ,Overfitting ,Description length (MDL) ,01 natural sciences ,010104 statistics & probability ,0202 electrical engineering, electronic engineering, information engineering ,Applied mathematics ,Mutual Information (MI) ,Speech processing systems ,0101 mathematics ,Minimum description length ,Mathematics ,Generalized Likelihood Ratio Test (GLRT) ,020206 networking & telecommunications ,Mutual information ,Min ,Sample (graphics) ,Squared pearson coefficient ,Processament de la parla ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Maximum likelihood (ML) ,Focus (optics) ,Bayesian Information Criterion (BIC) ,Communication channel - Abstract
We study the problem of estimating the overall mutual information in M independent parallel discrete-time memory-less Gaussian channels from N independent data sample pairs per channel (inputs and outputs). We focus on the case where the number of active channels L is sparse in comparison with the total number of channels (L ≪ M), for which the direct application of the maximum likelihood principle is problematic due to overfitting, especially for moderate to small N. For this regime, we show that the bias of the mutual information estimate is reduced by resorting to the minimum description length (MDL) principle. As a result, simple pre-processing based on a per-channel threshold on the empirical squared correlation coefficient is required with a fixed threshold that monotonically decreases with N as 1 - N -1/N , for N ≥ 4. The resulting improvement is shown in terms of the estimated information bias. This work is supported by projects TEC2016-76409-C2-1-R (WINTER), Ministerio de Economia y Competividad, Spanish National Research Plan, and 2017 SGR 578 - AGAUR, Catalan Government.
- Published
- 2020
- Full Text
- View/download PDF
47. Speaker location with a network of ESP32 devices
- Author
-
Universitat Politècnica de Catalunya. Departament d'Enginyeria Telemàtica, Paradells Aspas, Josep, Monferrer Duran, Rubén, Universitat Politècnica de Catalunya. Departament d'Enginyeria Telemàtica, Paradells Aspas, Josep, and Monferrer Duran, Rubén
- Abstract
This project proposes a voice activated home automation system with location functionalities. The system consists of microcontrollers distributed around the home with a microphone that perform a voice activity detection in real-time. Then a communication protocol has been designed to manage the audio transmission from the microcontrollers to the controller device using WiFi. The controller can then locate the source of the audio performing trilateration with the time difference of arrival of the signals into the microphones. Time precision is needed in the voice detection and the network needs to be synchronized. Several methods are proposed and tested. Using the WiFi beacons as reference. Generating multicast UDP datagrams periodically. At the end, the synchronization is implemented using the output of a zero crossing detector connected to the mains electricity because the other methods had some limitations. Finally, a provisioning method is proposed for easier deployment., Este proyecto propone un sistema domótico activado por voz con funcionalidades de localización. El sistema consiste en microcontroladores distribuidos por el hogar con un micrófono que realizan una detección de voz en tiempo real. Después se ha diseñado un protocolo de comunicación para gestionar la transmisión de audio de los microcontroladores al dispositivo controlador utilizando WiFi. El controlador puede localizar el origen de audio haciendo una trilateración de la diferencia de los tiempos de llegada de la señal a los micrófonos. Es necesaria una gran precisión temporal en la detección de voz y la red debe estar sincronizada. Varios métodos han sido propuestos y probados. Utilizando los beacons WiFi como referencia. Generando datagramas UDP en multidifusión de forma periódica. Al final, la sincronización ha sido implementada utilizando la salida de un circuito detector de paso por cero conectado a la toma de corriente del hogar ya que los otros métodos presentan limitaciones. Finalmente, se ha propuesto un método de aprovisionamiento para un despliegue más fácil., Aquest projecte proposa un sistema domòtic activat per veu amb funcionalitats de localització. El sistema consisteix en microcontroladors distribuïts per la llar amb un micròfon que realitzen una detecció de veu en temps real. Després s?ha dissenyat un protocol de comunicació per a gestionar la transmissió d?àudio dels microcontroladors al dispositiu controlador utilitzant WiFi. El controlador pot localitzar l?origen d?àudio fent una trilateració de la diferència dels temps d?arribada de les senyals als micròfons. És necessària una gran precisió temporal a la detecció de veu i la xarxa ha d?estar sincronitzada. Diversos mètodes han estat proposats i provats. Utilitzant els beacons WiFi com a referència. Generant datagramas UDP en difusió selectiva de forma periòdica. Al final, la sincronitació ha estat implementada utilitzant la sortida d?un circuit de pas per zero connectat a la presa de corrent de la llar ja que els altres mètodes presenten limitacions. Finalment, s?ha proposat un mètode d?aprovisionament per a un desplegament més fàcil.
- Published
- 2020
48. Estimation of information in parallel Gaussian channels via model order selection
- Author
-
Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. SPCOM - Grup de Recerca de Processament del Senyal i Comunicacions, López Molina, Carlos Alejandro, Cabrera Estanyol, Ferran de, Riba Sagarra, Jaume, Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. SPCOM - Grup de Recerca de Processament del Senyal i Comunicacions, López Molina, Carlos Alejandro, Cabrera Estanyol, Ferran de, and Riba Sagarra, Jaume
- Abstract
We study the problem of estimating the overall mutual information in M independent parallel discrete-time memory-less Gaussian channels from N independent data sample pairs per channel (inputs and outputs). We focus on the case where the number of active channels L is sparse in comparison with the total number of channels (L ≪ M), for which the direct application of the maximum likelihood principle is problematic due to overfitting, especially for moderate to small N. For this regime, we show that the bias of the mutual information estimate is reduced by resorting to the minimum description length (MDL) principle. As a result, simple pre-processing based on a per-channel threshold on the empirical squared correlation coefficient is required with a fixed threshold that monotonically decreases with N as 1 - N -1/N , for N ≥ 4. The resulting improvement is shown in terms of the estimated information bias., This work is supported by projects TEC2016-76409-C2-1-R (WINTER), Ministerio de Economia y Competividad, Spanish National Research Plan, and 2017 SGR 578 - AGAUR, Catalan Government., Peer Reviewed, Postprint (author's final draft)
- Published
- 2020
49. Design and evaluation of an ultra low-power human-quality speech recognition system
- Author
-
Universitat Politècnica de Catalunya. Doctorat en Arquitectura de Computadors, Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors, Universitat Politècnica de Catalunya. ARCO - Microarquitectura i Compiladors, Pinto Rivero, Dennis, Arnau Montañés, José María, González Colás, Antonio María, Universitat Politècnica de Catalunya. Doctorat en Arquitectura de Computadors, Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors, Universitat Politècnica de Catalunya. ARCO - Microarquitectura i Compiladors, Pinto Rivero, Dennis, Arnau Montañés, José María, and González Colás, Antonio María
- Abstract
Automatic Speech Recognition (ASR) has experienced a dramatic evolution since pioneer development of Bell Lab’s single-digit recognizer more than 50 years ago. Current ASR systems have taken advantage of the tremendous improvements in AI during the past decade by incorporating Deep Neural Networks into the system and pushing their accuracy to levels comparable to that of humans. This article describes and characterizes a representative ASR system with state-of-the-art accuracy and proposes a hardware platform capable of decoding speech in real-time with a power dissipation close to 1 Watt. The software is based on the so-called hybrid approach with a vocabulary of 200K words and RNN-based language model re-scoring, whereas the hardware consists of a commercially available low-power processor along with two accelerators used for the most compute-intensive tasks. The article shows that high performance can be obtained with very low power, enabling the deployment of these systems in extremely power-constrained environments such as mobile and IoT devices., This work has been supported by the CoCoUnit ERC Advanced Grant of the EU’s Horizon 2020 program (grant No. 833057), the Spanish State Research Agency under grant TIN2016-75344-R (AEI/FEDER, EU), the ICREA Academia program, and the Spanish MICINN Ministry under grant BES-2017-080605., Peer Reviewed, Postprint (published version)
- Published
- 2020
50. Hot Spot prediction for Routing of Car Sharing and other vehicles using AI
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Sayrol Clols, Elisa, Soler Lozano, Christian, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Sayrol Clols, Elisa, and Soler Lozano, Christian
- Abstract
Deep learning techniques have shown to improve by far existing methods in many engineering problems whenever large amounts of data is available and powerful processors (GPUs) are available for training. In Urban Mobility issues, large amounts of data might be generated and analyzed, for example, to choose dynamic routing to reduce traffic congestion. In this project we pretend to apply deep learning techniques, specifically LSTM, to improve an aspect of Urban Mobility in the Metropolitan Area of Barcelona. The main goal of this project is to predict, from a sequence of pick-ups and drop-offs, the next pick-up of car sharing, taxis, and other passenger vehicles. The pick-up must be a hotspot, being a hotspot a place that stands out above the other collecting points., Las técnicas de aprendizaje profundo han demostrado que mejoran los métodos existentes en muchos problemas de ingeniería siempre que haya grandes cantidades de datos y se dispongan de procesadores potentes (GPUs) para el entrenamiento. En problemas de movilidad urbana se pueden generar y analizar grandes cantidades de datos, por ejemplo, para elegir de manera dinámica una ruta para reducir la congestión del tráfico. En este proyecto se pretende aplicar técnicas de aprendizaje profundo, específicamente LSTM, para mejorar uno de los aspectos de la Movilidad Urbana en el Área Metropolitana de Barcelona. El objetivo principal de este proyecto es predecir, a partir de una secuencia de puntos de inicio y finalización, el próximo punto de recogida de car sharing, taxis y otros vehículos de pasajeros. Este punto de recogida es un hotspot, es decir, un punto que destaca por encima de los otros puntos de recogida., Les tècniques d’aprenentatge profund han demostrat que milloren els mètodes existents en molts problemes d’enginyeria sempre que hi hagin grans quantitats de dades i es disposin de processadors potents (GPUs) per a l’entrenament. En problemes de mobilitat urbana es poden generar i analitzar gran quantitats de dades, per exemple, per elegir de manera dinàmica una ruta per tal reduir la congestió del trànsit. En aquest projecte es pretén aplicar tècniques d'aprenentatge profund, específicament LSTM, per tal de millorar un dels aspectes de la Mobilitat Urbana a l’Àrea Metropolitana de Barcelona. L’objectiu principal d’aquest projecte és predir, a partir d’una seqüència de punts d’inici i finalització, el proper punt de recollida de car sharing, taxis i altres vehicles de passatgers. Aquest punt de recollida és un hotspot , és a dir, un punt que destaca per sobre dels altres punts de recollida.
- Published
- 2020
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.