17 results on '"Processament de la parla"'
Search Results
2. Comparative analysis of methods for the adaptation of Speech Emotion Recognition (SER) systems
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, University of New South Wales, Muñoz Medina, Olga, Sethu, Vidhyasharan, Feijóo Rodríguez, David, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, University of New South Wales, Muñoz Medina, Olga, Sethu, Vidhyasharan, and Feijóo Rodríguez, David
- Abstract
The aim of this work is to analyse how the adaptation to certain speakers of a Speech Emotion Recognition (SER) system improves its performance by contrasting several variations of the adaptation procedure. The initial focus is on constructing a robust SER system using a deep neural network (DNN), which serves as the baseline model. This DNN is trained to recognize emotions present in speech signals. To further optimize the system's accuracy and efficacy, adaptation techniques are employed. These techniques involve adapting the baseline model to specific speakers, accounting for individual variations in speech patterns and emotions. This is implemented by further training the baseline model with different adaptation datasets. Finally, the performance of the adapted SER systems is evaluated and compared to the baseline to see which variations give better results and extract conclusions on which factors are more influential in the final performance of the adapted model., El objetivo de este trabajo es analizar cómo la adaptación a ciertos hablantes de un sistema de Reconocimiento de Emociones en el Discurso (SER, por sus siglas en inglés), mejora su rendimiento. El análisis se lleva a cabo contrastando diversas variaciones del procedimiento de adaptación. El enfoque inicial se centra en la construcción de un sistema SER robusto utilizando una red neuronal profunda (DNN, por sus siglas en inglés), que sirve como modelo de referencia. Esta DNN se entrena para reconocer emociones presentes en el discurso. Para optimizar aún más la precisión y eficacia del sistema, se emplean técnicas de adaptación. Estas técnicas implican adaptar el modelo de referencia a hablantes específicos, para así tener en cuenta las variaciones individuales en los patrones de habla y emociones. Esto se lleva a cabo mediante un entrenamiento adicional del modelo de referencia con diferentes conjuntos de datos. Finalmente, se evalúa el rendimiento de los sistemas SER adaptados y se comparan con el modelo de referencia para determinar qué variaciones proporcionan mejores resultados y extraer conclusiones sobre qué factores son más influyentes en el rendimiento final del modelo adaptado., L'objectiu d'aquest treball és analitzar com l'adaptació a certs parlants d'un sistema de Reconeixement d'Emocions en el Discurs (SER, per les seves sigles en anglès) millora el seu rendiment. L'anàlisi es realitza contrastant diverses variacions del procediment d'adaptació. L'enfocament inicial es centra en la construcció d'un sistema SER robust utilitzant una xarxa neuronal profunda (DNN, per les seves sigles en anglès), que serveix com a model de referència. Aquesta DNN s'entrena per reconèixer emocions presents en el discurs. Per optimitzar encara més la precisió i eficàcia del sistema, es fan servir tècniques d'adaptació. Aquestes tècniques impliquen adaptar el model de referència a parlants específics, per tal de tenir en compte les variacions individuals en els patrons de parla i emocions. Això es duu a terme mitjançant un entrenament addicional del model de referència amb diferents conjunts de dades. Finalment, s'avalua el rendiment dels sistemes SER adaptats i es comparen amb el model de referència per determinar quines variacions proporcionen millors resultats i extreure conclusions sobre quins factors són més influents en el rendiment final del model adaptat.
- Published
- 2023
3. Design, development, and evaluation of a real-time facial expression and speech emotion recognition system
- Author
-
Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial, Grau Saldes, Antoni, Martínez García, Herminio, Borràs Duarte, Marta, Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial, Grau Saldes, Antoni, Martínez García, Herminio, and Borràs Duarte, Marta
- Abstract
Aquesta tesi presenta el disseny, desenvolupament i avaluació d’un sistema de reconeixement d'emocions en temps real per a aplicacions mèdiques. El mateix permet la monitorització en remot de l'estat emocional de pacients mitjançant tècniques de Reconeixement d'Expressions Facials (FER) i de Reconeixement d'Emocions de la Veu (SER). Les dades recopilades s'emmagatzemen en una base de dades al núvol, la qual cosa permet als professionals sanitaris accedir a les mateixes en temps real o diferit, i des de qualsevol localització. El sistema utilitza Reconeixement Facial (FR), prèviament a l’etapa de reconeixement d’emocions, per tal d’emmagatzemar les dades de cada pacient per separat en perfils individuals. El sistema té dos tipus de modes de funcionament: el reconeixement d'emocions monomodal i el multimodal. En funcionament monomodal, s’infereix en l’estat emocional del subjecte per FER. D’altra banda, el funcionament multimodal combina FER i SER per obtenir informació més profunda de l'estat emocional del subjecte. El sistema està dissenyat com a una proba de concepte amb un propòsit general. No obstant això, aquest treball també proposa diverses aplicacions en les quals podria ser integrat, i explora els ajustos necessaris per complir amb els requisits específics de cada cas d'ús. Finalment, en aquesta tesi s'aborden les implicacions ètiques i la protecció de dades relacionades amb l’ús d’aquest sistema., Esta tesis presenta el diseño, desarrollo y evaluación de un sistema de reconocimiento de emociones en tiempo real para aplicaciones médicas. El mismo permite la monitorización en remoto del estado emocional de pacientes mediante técnicas de Reconocimiento de Expresiones Faciales (FER) y de Reconocimiento de Emociones de la Voz (SER). Los datos recopilados se almacenan en una base de datos en la nube, lo que permite que profesionales sanitarios puedan acceder a las mismas en tiempo real o diferido, y desde cualquier localización. El sistema integra reconocimiento facial (FR) para crear perfiles individuales para cada paciente, permitiendo el almacenamiento de datos por separado. El sistema tiene dos tipos de modos de funcionamiento: el reconocimiento de emociones monomodal y el multimodal. En funcionamiento monomodal, se infiere en el estado emocional del sujeto por FER. Por otro lado, el funcionamiento multimodal combina FER y SER para proporcionar información más profunda del estado emocional del sujeto. El sistema está diseñado como una prueba de concepto con un propósito general. No obstante, este trabajo también propone varias aplicaciones en las cuales podría ser integrado, y explora los ajustes necesarios para cumplir con los requisitos específicos de cada caso de uso. Finalmente, en esta tesis se abordan las implicaciones éticas y la protección de datos personales relacionadas con el uso de este sistema., This thesis presents the design, development, and evaluation of a real-time emotion recognition system for healthcare applications. It aims to remotely monitor patients' emotional states using Facial Expression Recognition (FER) and Speech Emotion Recognition (SER) techniques. The collected data is stored in a cloud-based database, allowing healthcare professionals to access real-time updates from anywhere. Additionally, the system uses Facial Recognition (FR) to identify the patients before emotion recognition, to enable data storage into separate profiles. The system has two types of functioning modes: monomodal and multimodal emotion recognition. In the monomodal approach, FER is employed to infer the emotional state of the subject. On the other hand, the multimodal approach combines both FER and SER to provide deeper insights into the subject's emotional state. The system is designed as a proof of concept with a general purpose in mind. However, this work also proposes various applications in which the system could be integrated, and outlines the adjustments required to meet the specific needs of each use case. Finally, this thesis addresses the ethical and data protection implications associated with the use of this system.
- Published
- 2023
4. Conversió de veu a text per a reunions virtuals: un estudi de transcripció automatitzada
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Carreño Pio, Sergi, Candela i Oliver, Elia, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Carreño Pio, Sergi, and Candela i Oliver, Elia
- Abstract
In the last few years, the use of Deep Learning has increased in virtual assistance and speech recognition applications, improving its performance with supervised learning techniques. However, it is an area that continues to evolve and enrich itself constantly as it is used. One of the sectors where this technology is being implemented most frequently is in ASR (Automatic Speech Recognition) applications, especially in transcription. The company ITNow is working on developing a speech-to-text conversion system that offers the best possible performance for virtual meetings. In this project, several automatic transcription libraries that meet the company's requirements are being studied to find the one that achieves the best performance and accuracy in converting the spoken voice signal into written content. This research will enable ITNow to improve the efficiency of virtual meetings with accurate and quality transcripts, enhancing understanding and decision making., En los últimos años, el uso del Deep Learning ha aumentado en aplicaciones de asistencia virtual y reconocimiento de voz, mejorando su funcionamiento con técnicas de aprendizaje supervisado. Sin embargo, es un área que continúa evolucionando y enriqueciéndose constantemente a medida que se utiliza. Uno de los sectores donde esta tecnología se está implementando con mayor frecuencia es en las aplicaciones de ASR (Automatic Speech Recognition), especialmente en transcripciones. La empresa ITNow está trabajando en desarrollar un sistema de conversión de voz a texto que ofrezca el mejor rendimiento posible para las reuniones virtuales. En este proyecto, se están estudiando varias bibliotecas de transcripción automática que cumplen con los requisitos de la empresa, para lograr aquella que alcance el mejor rendimiento y precisión al convertir la señal de voz hablada en contenido escrito. Esta investigación permitirá a ITNow mejorar la eficacia de las reuniones virtuales con transcripciones precisas y de calidad, favoreciendo la comprensión y toma de decisiones., En els últims anys, l'ús del Deep Learning ha augmentat en aplicacions d'assistència virtual i reconeixement de veu, millorant-ne el funcionament amb tècniques d'aprenentatge supervisat. No obstant això, és una àrea que continua evolucionant i enriquint-se constantment a mesura que s'utilitza. Un dels sectors en el què aquesta tecnologia s'està implementant amb més freqüència és en les aplicacions d'ASR (Automatic Speech Recognition), especialment en transcripcions. L'empresa ITNow està treballant per desenvolupar un sistema de conversió de veu a text que ofereixi el millor rendiment possible per a les reunions virtuals. En aquest projecte, s'estudien diverses llibreries de transcripció automàtica que compleixen els requisits de l'empresa, i així aconseguir la que assoleix millor rendiment i precisió en convertir el senyal de veu parlat en contingut escrit. Aquesta investigació permetrà a ITNow millorar l'eficàcia de les reunions virtuals amb transcripcions precises i de qualitat per afavorir la comprensió i presa de decisions.
- Published
- 2023
5. Efficient speech translation with dynamic latent perceivers
- Author
-
Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. IDEAI-UPC - Intelligent Data sciEnce and Artificial Intelligence Research Group, Tsiamas, Ioannis, Gallego Olsina, Gerard Ion, Fonollosa, José A. R., Costajussa, M.R., Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. IDEAI-UPC - Intelligent Data sciEnce and Artificial Intelligence Research Group, Tsiamas, Ioannis, Gallego Olsina, Gerard Ion, Fonollosa, José A. R., and Costajussa, M.R.
- Abstract
Transformers have been the dominant architecture for Speech Translation in recent years, achieving significant improvements in translation quality. Since speech signals are longer than their textual counterparts, and due to the quadratic complexity of the Transformer, a down-sampling step is essential for its adoption in Speech Translation. Instead, in this research, we propose to ease the complexity by using a Perceiver encoder to map the speech inputs to a fixed-length latent representation. Furthermore, we introduce a novel way of training Perceivers, with Dynamic Latent Access (DLA), unlocking larger latent spaces without any additional computational overhead. Speech-to-Text Perceivers with DLA can match the performance of Transformer baselines across three language pairs in MuST-C. Finally, a DLA-trained model is easily adaptable to DLA at inference, and can be flexibly deployed with various computational budgets, without significant drops in translation quality., Postprint (published version)
- Published
- 2023
6. Joint learning of depression and anxiety severity directly from speech signals
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, King's College London, Vallverdú Bayés, Sisco, Cummins, Nicholas, Quintana Aguasca, Eric, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, King's College London, Vallverdú Bayés, Sisco, Cummins, Nicholas, and Quintana Aguasca, Eric
- Abstract
Advances in digital health and phenotyping technologies are crucial to ensureincreased access to high-quality mental health support services and treatment. Speech is uniquely placed in this regard, as no other mobile health signal contains its singular combination of cognitive, neuromuscular and physiological information. It is this complexity which makes speech a suitable marker for different mentalhealth conditions.However, much research exploring links between speech and depression is limited, and co-morbidities with conditions such as anxiety have not been exploited to help improve machine learning models.The purpose of this project is to jointly learn depression and anxietydirectly from speech signals.For this project, speech signals were split into segments that were converted into Mel-spectrograms. Automatic feature extraction was performed using a CNN-LSTM model that can classify into5 severities ofdepression. With transfer learning, this model was then usedas a pre-trained model for other tasks, such as classifying speech signals into different 4 severities of anxiety or improving modelsfor both co-morbiditiesin different languages. Finally, a Multi-Task learning model is used to jointly detect depression and anxiety. Models that use transfer learning to detectanxiety achieve an improvement from 67% to 72% of accuracy, while multi-Task learning models achieve an accuracy of 71% for both co-morbidities, anxiety and depression. The experiments show promising results, discussing the viability of jointly detecting mental health conditions such as depression and anxiety as well as exploiting the viability of using models pre-trained for just one condition, language or task to fine-tune a model for another condition, language or task, demonstrating that co-morbidities can help to improve models for joint learning severities directly from speech signals.
- Published
- 2023
7. Investigating the Training Dynamics in End-to-end Speech Translation
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Gallego Olsina, Gerard Ion, Ruiz Costa-Jussà, Marta, Alastruey Lasheras, Belén, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Gallego Olsina, Gerard Ion, Ruiz Costa-Jussà, Marta, and Alastruey Lasheras, Belén
- Abstract
The task of speech translation consists one translating speech input into text in a different language. In this project, we present an interpretability analysis of a Transformer model on this task. Our work builds upon previous research which explored the training phases of a Transformer for text translation. We extend their analysis to study the training of the Transformer for ST, focusing on the variations of contribution of the source to the predictions during the training process. We show that depending on the training strategy, some speech translation models show a similar source contribution than text translation ones, but others have a lower source contribution and a worse performance. Furthermore, we propose modification to the Transformer architecture, aiming to force the model to use more source in its predictions. Through this modifications, we achieve a significant performance boost of up to +1.3 BLEU.
- Published
- 2023
8. Augment de dades de veu per a sistemes de processament de la parla
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Hernando Pericás, Francisco Javier, Falceto Piñol, Anna, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Hernando Pericás, Francisco Javier, and Falceto Piñol, Anna
- Abstract
We live in an era where intelligent systems are becoming more and more part of our lives. These systems require a large amount of data to learn different tasks and, in many cases, not enough content is available to train them. Data augmentation stems from the necessity of creating, in an artificial way, new data similar to the original to help in better training. It applies to many types of intelligent systems, although this project focuses on data augmentation for speech. In this work, a computer program, capable of processing large databases and expanding their content using different techniques, will be presented., Vivimos en una era donde los sistemas inteligentes forman cada vez más parte de nuestra vida. Estos sistemas necesitan una gran cantidad de datos para conseguir aprender diferentes tareas y, en muchos casos, no se dispone de suficiente contenido para entrenarlos. El aumento de datos nace de la necesidad de crear artificialmente nuevos datos, similares a los originales, que ayuden a hacer un mejor entrenamiento. Es aplicable a muchos tipos de sistemas inteligentes, pero este trabajo se centra en el aumento de datos de voz. En él se presentará un programa informático capaz de procesar grandes bases de datos y ampliar su contenido mediante diferentes técnicas., Vivim en una era on els sistemes intel·ligents formen cada cop més part de la nostra vida. Aquests sistemes necessiten una gran quantitat de dades per aconseguir aprendre diferents tasques i, en molts casos, no es disposa de suficient contingut per entrenar-los. L'augment de dades neix de la necessitat de crear artificialment noves dades, similars a les originals, que ajudin a fer un millor entrenament. És aplicable a molts tipus de sistemes intel·ligents, però aquest treball se centra en l'augment de dades de veu. En aquest es presentarà un programa informàtic capaç de processar grans bases de dades i ampliar-ne el contingut mitjançant diferents tècniques.
- Published
- 2023
9. Language modelling for speaker diarization in telephonic interviews
- Author
-
Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla, India Massana, Miquel Àngel, Hernando Pericás, Francisco Javier, Rodríguez Fonollosa, José Adrián, Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla, India Massana, Miquel Àngel, Hernando Pericás, Francisco Javier, and Rodríguez Fonollosa, José Adrián
- Abstract
The aim of this paper is to investigate the benefit of combining both language and acoustic modelling for speaker diarization. Although conventional systems only use acoustic features, in some scenarios linguistic data contain high discriminative speaker information, even more reliable than the acoustic ones. In this study we analyze how an appropriate fusion of both kind of features is able to obtain good results in these cases. The proposed system is based on an iterative algorithm where a LSTM network is used as a speaker classifier. The network is fed with character-level word embeddings and a GMM based acoustic score created with the output labels from previous iterations. The presented algorithm has been evaluated in a Call-Center database, which is composed of telephone interview audios. The combination of acoustic features and linguistic content shows a 84.29% improvement in terms of a word-level DER as compared to a HMM/VB baseline system. The results of this study confirms that linguistic content can be efficiently used for some speaker recognition tasks., This work was partially supported by the Spanish Project DeepVoice (TEC2015-69266-P) and by the project PID2019-107579RBI00/ AEI /10.13039/501100011033., Peer Reviewed, Postprint (published version)
- Published
- 2023
10. Augment de dades de veu per a sistemes de processament de la parla
- Author
-
Falceto Piñol, Anna, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and Hernando Pericás, Francisco Javier
- Subjects
procesamiento del habla ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Processament de la parla ,Speech processing systems ,augmento de datos ,speech processing ,data augmentation - Abstract
We live in an era where intelligent systems are becoming more and more part of our lives. These systems require a large amount of data to learn different tasks and, in many cases, not enough content is available to train them. Data augmentation stems from the necessity of creating, in an artificial way, new data similar to the original to help in better training. It applies to many types of intelligent systems, although this project focuses on data augmentation for speech. In this work, a computer program, capable of processing large databases and expanding their content using different techniques, will be presented. Vivimos en una era donde los sistemas inteligentes forman cada vez más parte de nuestra vida. Estos sistemas necesitan una gran cantidad de datos para conseguir aprender diferentes tareas y, en muchos casos, no se dispone de suficiente contenido para entrenarlos. El aumento de datos nace de la necesidad de crear artificialmente nuevos datos, similares a los originales, que ayuden a hacer un mejor entrenamiento. Es aplicable a muchos tipos de sistemas inteligentes, pero este trabajo se centra en el aumento de datos de voz. En él se presentará un programa informático capaz de procesar grandes bases de datos y ampliar su contenido mediante diferentes técnicas. Vivim en una era on els sistemes intel·ligents formen cada cop més part de la nostra vida. Aquests sistemes necessiten una gran quantitat de dades per aconseguir aprendre diferents tasques i, en molts casos, no es disposa de suficient contingut per entrenar-los. L'augment de dades neix de la necessitat de crear artificialment noves dades, similars a les originals, que ajudin a fer un millor entrenament. És aplicable a molts tipus de sistemes intel·ligents, però aquest treball se centra en l'augment de dades de veu. En aquest es presentarà un programa informàtic capaç de processar grans bases de dades i ampliar-ne el contingut mitjançant diferents tècniques.
- Published
- 2023
11. Joint learning of depression and anxiety severity directly from speech signals
- Author
-
Quintana Aguasca, Eric, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, King's College London, Vallverdú Bayés, Sisco, and Cummins, Nicholas
- Subjects
Medicina--Informàtica ,Deep learning (Machine learning) ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,multi-task learning ,deep learning ,Processament de la parla ,Speech processing systems ,Medicine--Data processing ,health informatics ,mental health ,Transfer learning ,speech processing ,Aprenentatge profund - Abstract
Advances in digital health and phenotyping technologies are crucial to ensureincreased access to high-quality mental health support services and treatment. Speech is uniquely placed in this regard, as no other mobile health signal contains its singular combination of cognitive, neuromuscular and physiological information. It is this complexity which makes speech a suitable marker for different mentalhealth conditions.However, much research exploring links between speech and depression is limited, and co-morbidities with conditions such as anxiety have not been exploited to help improve machine learning models.The purpose of this project is to jointly learn depression and anxietydirectly from speech signals.For this project, speech signals were split into segments that were converted into Mel-spectrograms. Automatic feature extraction was performed using a CNN-LSTM model that can classify into5 severities ofdepression. With transfer learning, this model was then usedas a pre-trained model for other tasks, such as classifying speech signals into different 4 severities of anxiety or improving modelsfor both co-morbiditiesin different languages. Finally, a Multi-Task learning model is used to jointly detect depression and anxiety. Models that use transfer learning to detectanxiety achieve an improvement from 67% to 72% of accuracy, while multi-Task learning models achieve an accuracy of 71% for both co-morbidities, anxiety and depression. The experiments show promising results, discussing the viability of jointly detecting mental health conditions such as depression and anxiety as well as exploiting the viability of using models pre-trained for just one condition, language or task to fine-tune a model for another condition, language or task, demonstrating that co-morbidities can help to improve models for joint learning severities directly from speech signals.
- Published
- 2023
12. Analysis of social trends based on artificial intelligence techniques
- Author
-
Pérez Lozano, Albert, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and Morera Trujillo, Jordi
- Subjects
Artificial intelligence ,inteligencia artificial ,Intel·ligència artificial ,Tecnologia i societat ,Enginyeria de la telecomunicació::Processament del senyal [Àrees temàtiques de la UPC] ,social trends ,procesamiento del lenguaje natural ,keyword extraction ,extracción de palabras clave ,web scraping ,Processament de la parla ,tendencias sociales ,Speech processing systems ,natural language processing - Abstract
In order to analyze and extract information about social trends in the Spanish and Portuguese environment from an objective point of view, the implementation of this project was requested. This consists of extracting information from different and varied sources of internet information through the web scraping technique, and then using artificial intelligence techniques to process the texts obtained and extract keywords. Finally, two different ways of presenting the obtained results have been created in order to extract as much insights as possible from them. Con el fin de analizar y extraer información sobre las tendencias sociales en el entorno español y portugués desde un punto de vista objetivo, se solicitó la implementación de este proyecto. Este consiste en extraer información de diferentes y variadas fuentes de información de internet a través de la técnica del "web scraping", y posteriormente utilizar técnicas de inteligencia artificial para procesar los textos obtenidos y extraer palabras clave. Por último, se han creado dos formas diferentes de presentar los resultados obtenidos, con el fin de extraer de ellos la mayor cantidad de información posible. Per tal d'analitzar i extreure informació sobre les tendències socials de l'entorn espanyol i portuguès des d'un punt de vista objectiu, es va sol·licitar la implementació d'aquest projecte. Aquest consisteix en extreure informació de diferents i variades fonts d'informació d'internet mitjançant la tècnica del "web scraping", i després utilitzar tècniques d'intel·ligència artificial per processar els textos obtinguts i extreure'n paraules clau. Finalment, s'han creat dues maneres diferents de presentar els resultats obtinguts, per tal d'obtenir-ne el màxim d'informació possible.
- Published
- 2022
13. Validació i classificació d'àudio del projecte 'Common Voice'
- Author
-
Ramírez Martí, Carla, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and Esquerra Llucià, Ignasi
- Subjects
Forced alignment ,Català ,Automatic speech recognition ,Alineament forçat ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Speech ,Processament de la parla ,Reconeixement automàtic de la parla ,Speech recognition ,Parla - Abstract
Common Voice és un projecte que convida a la gent a donar la seva veu en la seva llengua materna amb el propòsit de reunir corpus de veus. Aquests corpus, disponibles en més de noranta idiomes, estan formats per una gran quantitat d’àudios curts, en els quals els usuaris es graven llegint una frase, i es poden utilitzar per millorar els sistemes de reconeixement i síntesi de parla. Precisament en català la majoria d’aquests sistemes actualment necessiten millores en els seus models i la base de dades de Common Voice pot arribar a ser de gran utilitat. Un dels seus avantatges és l'accessibilitat per a tothom, tant per la gent que vol desenvolupar sistemes de reconeixement com per la que vol proporcionar la seva veu. Per aquest motiu, aquest projecte utilitza el corpus català amb la intenció de validar-lo, intentant generar una segmentació fonètica dels àudios i posteriorment analitzant la precisió de les etiquetes, amb l’objectiu de poder contribuir en el desenvolupament de les tecnologies de la parla, a més d’adquirir coneixements sobre el funcionament de gestió de dades i entrenament de models amb xarxes neuronals. Inicialment, es pretenia processar la base de dades completa, formada per 25 GB de dades i més de 1000 hores gravades, però això requereix una gran quantitat de temps i de recursos computacionals, així que s’ha optat per seleccionar un conjunt reduït de dades i treballar a menor escala. El procediment ha sigut realitzar un alineament forçat amb els àudios i les seves transcripcions amb els programes Festival i Montreal Forced Aligner. Per aquest últim s’ha necessitat entrenar un model acústic, utilitzant el mateix corpus de Common Voice però amb diferents arxius. Finalment s’ha analitzat la precisió temporal de les etiquetes resultants, en les que s’ha vist que no eren del tot perfectes. Common Voice es un proyecto que invita a la gente a donar su voz en su lengua materna con el propósito de reunir corpus de voz. Estos corpus, disponibles en más de noventa idiomas, estan formados por una gran cantidad de audios cortos, en los que los usuarios se graban leyendo una frase, y se pueden utilizar para mejorar los sistemes de reconocimiento y síntesi del habla. Precisamente en catalán la mayoría de estos sistemas actualmente necesitan mejoras en sus models y la base de datos de Common Voice puede llegar a ser de gran utilidad. Una de sus ventajas es la accesibilidad para todo el mundo, tanto para la gente que quiere desarrollar sistemas de reconocimiento como para la que quiere proporcionar su voz. Por eso, este proyecto utiliza el corpus catalán con la intención de validarlo, intentando generar una segmentación fonética de los audios y posteriormente analizando la precisión de las etiquetas, con el objetivo de poder contribuir con el desarrollo de las tecnologías del habla, además de adquirir conocimientos sobre el funcionamiento de gestión de datos y entrenamiento de modelos con redes neuronales. Inicialmente, se pretendía procesar la base de datos completa, formada por 25 GB de datos y más de 1000 horas grabadas, pero esto requiere una gran cantidad de tiempo y de recursos computacionales, así que se ha optado por seleccionar un conjunto reducido de datos y trabajar a menor escala. El procedimiento ha sido realizar un alineamiento forzado con los audios y sus transcripciones con los programas Festival y Montreal Forced Aligner. Para este último se ha necesitado entrenar un modelo acústico, usando el mismo corpus de Common Voice pero con diferentes archivos. Finalmente se ha analizado la precisión temporal de las etiquetas resultantes, en las que se ha visto que no eran del todo perfectas. Common Voice is a project that invites people to donate their voice in their mother tongue in order to collect speech corpora. These corpora, available in more than ninety languages, consist of a large quantity of short audio files, in which users record themselves reading a sentence, and can be used to improve speech recognition and synthesis systems. In catalan, most of these systems currently need improvement in their models and the Common Voice dataset may be very helpful. One of its advantages is the accessibility for everyone, both for people who want to develop speech recognition systems and for people who want to provide their voice data. For this reason, this project uses the catalan corpus with the purpose of validating it, generating a phonetic segmentation of the audios and subsequently analyzing the labeling precision, with the aim of being able to contribute in the development of speech technologies, as well as gaining knowledge about data management and model training. The initial idea was processing the whole dataset, consisting of 25 GB of data and more than 1000 hours of recording, but this requires a large amount of time and computing resources, so a later choice was selecting a reduced set of audios and work on a smaller scale. The procedure was performing forced alignment on the audios and their orthographic transcriptions with Festival and Montreal Forced Aligner. For the latter, the training of a new acoustic model was needed, using the same Common Voice corpus but with different files. Finally the accuracy of the labels was analyzed, but the results showed that they were not entirely accurate.
- Published
- 2022
14. Local voice command understanding with limited resources platforms using AI
- Author
-
Sánchez i Deutsch, Sergi, Universitat Politècnica de Catalunya. Departament d'Enginyeria Telemàtica, Paradells Aspas, Josep, Huerta Casado, Iván, and Escrig Escrig, Josep
- Subjects
Artificial intelligence ,aprendizaje profundo ,inteligencia artificial ,Intel·ligència artificial ,Automatic speech recognition ,deep learning ,Reconeixement automàtic de la parla ,keyword spotting ,command understanding ,reconocimiento de palabras clave ,procesado del lenguaje natural ,Natural language processing (Computer science) ,Machine learning ,Aprenentatge automàtic ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Processament de la parla ,Speech processing systems ,natural language processing ,Tractament del llenguatge natural (Informàtica) ,reconocimiento del habla ,speech processing - Published
- 2022
15. Deep learning for speaker characterization
- Author
-
Garriga Artieda, Daniel, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and Hernando Pericás, Francisco Javier
- Subjects
Neural Networks ,Procesado del Habla ,Speech Processing ,Deep learning ,Neural networks (Computer science) ,Machine learning ,Aprenentatge automàtic ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Redes Neuronales ,Processament de la parla ,Xarxes neuronals (Informàtica) ,Speech processing systems ,Aprendizaje Automático ,Aprenentatge profund - Abstract
La caracterización de un locutor es una de las tareas más relevantes en muchas aplicaciones de inteligencia artificial. Del mismo modo que estas tecnologías mejoran y se aumenta la cantidad de datos disponibles, es también importante adaptarlas a distintos idiomas y contextos. En este proyecto, se propone una red neuronal para clasificar el género, edad y acento de un locutor en catalán. Distintas variaciones serán exploradas, incluyendo algunas t´ecnicas punteras como el mecanismo de pooling basado en Double Multi-Head Attention. Por otro lado, se llevará a cabo análisis de datos con tal de obtener los mejores resultados posibles, incluyendo la aplicación de técnicas nivel estado del arte de aumento de datos. Algunos de los resultados son prometedores, al demostrar una considerable mejora respecto otras técnicas clásicas no basadas en aprendizaje automático. La caracterització d'un locutor és una de les tasques més rellevants en moltes aplicacions d'intel·ligència artificial. Tan bon punt s'afinen aquestes tecnologies i augmenta la quantitat de dades disponibles, és important adaptar-les a diferents idiomes i contexts. En aquest projecte, es proposa una xarxa neuronal per classificar el gènere, l'edat i l'accent d'un parlant de català. Vàries variacions dels blocs més convencionals seran explorades, incloent algunes tècniques punteres com un mecanisme de pooling basat en Double Multi- Head Attention. Per altra banda, es durà a terme anàlisis de dades per tal de millorar els resultats obtinguts, incloent l'aplicació de tècniques estat de l'art d'augment de dades. Alguns dels resultats són força prometedors, al demostrar una considerable millora respecte altres tècniques clàssiques no basades en l'aprenentatge automàtic. Speech characterization is one of the most relevant tasks in a lot of voice-related artificial intelligence applications. As these technologies thrive and the amount of data available increases, it is also salient their adaptation to different languages and contexts. In this project, a network to classify the gender, age and accent of a Catalan speaker through their voice is proposed. Different variations of the main models blocks are going to be explored, including some innovative techniques as the Double Multi-Head Attention pooling mechanism. In addition, some data analysis- including the application of some state-of-art voice data augmentation techniques- will be done aiming for better results. Some results show strong promise, as they indicate improvement in comparison to some classical methods not based on machine learning.
- Published
- 2022
16. Language modelling for speaker diarization in telephonic interviews
- Author
-
Miquel India, Javier Hernando, José A.R. Fonollosa, Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla
- Subjects
Neural networks (Computer science) ,Human-Computer Interaction ,Language modelling ,Speaker diarization ,Acoustic modelling ,LSTM neural networks ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Processament de la parla ,Xarxes neuronals (Informàtica) ,Speech processing systems ,Software ,Theoretical Computer Science - Abstract
The aim of this paper is to investigate the benefit of combining both language and acoustic modelling for speaker diarization. Although conventional systems only use acoustic features, in some scenarios linguistic data contain high discriminative speaker information, even more reliable than the acoustic ones. In this study we analyze how an appropriate fusion of both kind of features is able to obtain good results in these cases. The proposed system is based on an iterative algorithm where a LSTM network is used as a speaker classifier. The network is fed with character-level word embeddings and a GMM based acoustic score created with the output labels from previous iterations. The presented algorithm has been evaluated in a Call-Center database, which is composed of telephone interview audios. The combination of acoustic features and linguistic content shows a 84.29% improvement in terms of a word-level DER as compared to a HMM/VB baseline system. The results of this study confirms that linguistic content can be efficiently used for some speaker recognition tasks. This work was partially supported by the Spanish Project DeepVoice (TEC2015-69266-P) and by the project PID2019-107579RBI00/ AEI /10.13039/501100011033.
- Published
- 2023
- Full Text
- View/download PDF
17. Hippocampal and auditory contributions to speech segmentation
- Author
-
Neus Ramos-Escobar, Manuel Mercier, Agnès Trébuchon-Fonséca, Antoni Rodriguez-Fornells, Clément François, Daniele Schön, University of Barcelona, Institut de Neurosciences des Systèmes (INS), Aix Marseille Université (AMU)-Institut National de la Santé et de la Recherche Médicale (INSERM), Laboratoire Parole et Langage (LPL), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), ANR-16-CONV-0002,ILCB,ILCB: Institute of Language Communication and the Brain(2016), and ANR-16-CE28-0012,RALP,Effets de la stimulation rythmique sur le traitement du langage chez le sujet sain et chez l'enfant avec troubles du langage(2016)
- Subjects
hippocampus ,Cognitive Neuroscience ,Hipocamp (Cervell) ,frequency tagging ,Experimental and Cognitive Psychology ,speech segmentation ,Statistical Learning ,[SCCO]Cognitive science ,Neuropsychology and Physiological Psychology ,nervous system ,FOS: Biological sciences ,Quantitative Biology - Neurons and Cognition ,Speech Perception ,Humans ,Learning ,Speech ,Processament de la parla ,Neurons and Cognition (q-bio.NC) ,[SDV.NEU]Life Sciences [q-bio]/Neurons and Cognition [q-bio.NC] ,Speech processing systems ,sEEG ,Hippocampus (Brain) ,Language - Abstract
Statistical learning has been proposed as a mechanism to structure and segment the continuous flow of information in several sensory modalities. Previous studies proposed that the medial temporal lobe, and in particular the hippocampus, may be crucial to parse the stream in the visual modality. However, the involvement of the hippocampus in auditory statistical learning, and specifically in speech segmentation is less clear. To explore the role of the hippocampus in speech segmentation based on statistical learning, we exposed seven pharmaco-resistant temporal lobe epilepsy patients to a continuous stream of trisyllabic pseudowords and recorded intracranial stereotaxic electro-encephalography (sEEG). We used frequency-tagging analysis to quantify neuronal synchronization of the hippocampus and auditory regions to the temporal structure of words and syllables of the stream. Results show that while auditory regions highly respond to syllable frequency, the hippocampus responds mostly to word frequency. These findings provide direct evidence of the involvement of the hippocampus in speech segmentation process and suggest a hierarchical organization of auditory information during speech processing., Cortex, Elsevier, 2022
- Published
- 2022
- Full Text
- View/download PDF
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.