239 results on '"reconocimiento automático del habla"'
Search Results
2. CÓMO DOMINAR LA FRASEOLOGÍA Y AUTOMATIZAR EL PROCESO DE DOCUMENTACIÓN: UNA SOLUCIÓN TECNOLÓGICA PARA LA FORMACIÓN DE INTÉRPRETES EN LA COMBINACIÓN ESPAÑOL<>ÁRABE.
- Author
-
Gaber, Mahmoud
- Subjects
AUTOMATIC speech recognition ,PHRASEOLOGY ,ARTIFICIAL intelligence ,SPANISH language ,COVID-19 pandemic - Abstract
Copyright of Romanica Olomucensia is the property of Palacky University in Olomouc and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2023
- Full Text
- View/download PDF
3. Automatic pronunciation assessment vs. automatic speech recognition: a study of conflicting conditions for L2-English
- Author
-
Cámara Arenas, Enrique and Cámara Arenas, Enrique
- Abstract
Producción Científica, This study addresses the issue of automatic pronunciation assessment (APA) and its contribution to the teaching of second language (L2) pronunciation. Several attempts have been made at designing such systems, and some have proven operationally successful. However, the automatic assessment of the pronunciation of short words in segmental approaches has still remained a significant challenge. Free and off-the-shelf automatic speech recognition (ASR) systems have been used in integration with other tools with the hopes of facilitating improvement in the domain of computer-assisted pronunciation training (CAPT). The use of ASR in APA stands on the premise that a word that is recognized is intelligible and well-pronounced. Our goal was to explore and test the functionality of Google ASR as the core component within a possible automatic British English pronunciation assessment system. After testing the system against standard and non-standard (foreign) pronunciations provided by participating pronunciation experts as well as non-expert native and non-native speakers of English, we found that Google ASR does not and cannot simultaneously meet two necessary conditions (here defined as intrinsic and derived) for performing as an APA system. Our study concludes with a synthetic view on the requirements of a reliable APA system.
- Published
- 2024
4. Estudio comparativo de métodos de transcripción para corpus orales: el caso del español
- Author
-
Marimar Rufino Morales
- Subjects
rehablado ,transcripción ,reconocimiento automático del habla ,programa de dictado ,corpus oral ,Special aspects of education ,LC8-6691 ,Philology. Linguistics ,P1-1091 ,Language acquisition ,P118-118.7 - Abstract
Los avances tecnológicos han propulsado la metodología de investigación en transcripción. Los programas para corpus lingüísticos basados en modelos estadísticos y de aprendizaje profundo han mejorado las fases de alineación y anotación. En cambio, cuando se trata de transcribir el material, la carga interpretativa y la propia naturaleza de las conversaciones obstaculizan la automatización del proceso. De esta manera, la transcripción de entrevistas destinadas al estudio de la lengua oral se sigue haciendo con un reproductor y un teclado, y puede convertirse en uno de los aspectos más largos del procesamiento de datos. Sin embargo, en otros contextos profesionales, el reconocimiento automático del habla se emplea para transcribir de forma eficaz gracias a la colaboración humano-computadora. Las técnicas y estrategias difieren, pero todas tienen en común que estabilizan las fluctuaciones de las herramientas informáticas y son más rápidas que otros métodos. En este estudio se ha utilizado una de ellas, el rehablado off-line con las entrevistas del Corpus oral de la lengua española en Montreal. Se ha medido el tiempo empleado, así como la precisión y se ha comparado con el reconocimiento automático del habla y con la mecanografía. El rehablado off-line ha permitido el uso de un programa automático de dictado en su estado actual como herramienta para potenciar la transcripción de entrevistas en menos tiempo y con menos errores.
- Published
- 2020
- Full Text
- View/download PDF
5. Estudio comparativo de métodos de transcripción para corpus orales: el caso del español.
- Author
-
Rufino Morales, Marimar
- Published
- 2020
- Full Text
- View/download PDF
6. Catalan Accent Classification by Voice using Deep Learning
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Hernando Pericás, Francisco Javier, Felip I Díaz, Bernat, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Hernando Pericás, Francisco Javier, and Felip I Díaz, Bernat
- Abstract
Speech characterization is a vital field in artificial intelligence, yet accent classification is often overlooked, particularly for the Catalan language. This project is centered on the classification of Catalan accents using the Catalan Common Voice dataset. We lay significant emphasis on our data processing pipeline, striving to ensure the quality and accuracy of the dataset for both training and validation phases. A novel aspect of our approach is the application of Double Multi-Head Self-Attention Pooling, diverging from the traditional statistical pooling methods typically employed in this task. This methodology enables effective pooling and dimensionality reduction of the feature vector, thereby boosting the efficiency of our models. We conduct various experiments to explore the optimal utilization of available data and to fine-tune our model for improved results., La caracterización del habla es un campo vital en la inteligencia artificial, sin embargo, la clasificación de acentos a menudo se pasa por alto, particularmente para el idioma catalán. Este proyecto se centra en la clasificación de acentos catalanes utilizando conjunto de datos catalán Common Voice. Ponemos un énfasis significativo en nuestra cadena de procesamiento de datos, esforzándonos por garantizar la calidad y precisión del conjunto de datos tanto para las fases de entrenamiento como de validación. Un aspecto novedoso de nuestro enfoque es la aplicación del "Double Multi-Head Self-Attention Pooling", divergiendo de los métodos de agrupamiento estadístico tradicionales que se emplean típicamente en esta tarea. Esta metodología permite un "pooling" efectivo y una reducción de la dimensionalidad del vector de características, lo que mejora la eficiencia de nuestros modelos. Llevamos a cabo varios experimentos para explorar la utilización óptima de los datos disponibles y para ajustar nuestro modelo para mejorar los resultados., La caracterització de la parla és un camp vital en la intel·ligència artificial, però sovint es passa per alt la classificació d'accents, especialment per a la llengua catalana. Aquest projecte es centra en la classificació dels diferents accents catalans mitjançant el conjunt de dades Common Voice en català. Posem un èmfasi important en la nostra cadena de processament de dades, esforçant-nos per garantir la qualitat i la precisió del conjunt de dades tant per a les fases d'entrenament com de validació. Un aspecte nou del nostre enfoc és l'aplicació de "Double Multi-Head Self-Attention Pooling", divergent dels mètodes de "pooling" estadístics tradicionals que s'utilitzen habitualment en aquesta tasca. Aquesta metodologia permet l'agrupació efectiva i la reducció de la dimensionalitat del vector de característiques, augmentant així l'eficiència dels nostres models. Realitzem diversos experiments per explorar la utilització òptima de les dades disponibles i per afinar el nostre model per millorar els resultats.
- Published
- 2023
7. Perspectivas sobre la traducción automática del habla
- Author
-
Satoshi Nakamura, Katsuhito Sudoh, and Sakriani Sakti
- Subjects
Traducción automática del habla ,reconocimiento automático del habla ,traducción automática de textos ,conversión de texto a voz. ,Translating and interpreting ,P306-310 - Abstract
En Japón se han llevado a cabo muchas actividades de investigación acerca de la traducción automática del habla. Este artículo pretende ofrecer una visión general de dichas actividades y presentar las que se han realizado más recientemente. El sistema S2ST está formado básicamente por tres módulos: el reconocimiento automático del habla continua y de amplios vocabularios (Automatic Speech Recognition, ASR), la traducción automática de textos (Machine translation, MT) y la conversión de texto a voz (Text-to-Speech Synthesis, TTS). Todos los módulos deben ser plurilingües, por lo cual se requieren discursos y corpus multilingües para los modelos de formación. El rendimiento del sistema S2ST mejora considerablemente por medio de un aprendizaje profundo y grandes corpus formativos. Sin embargo, todavía hace falta tratar diversos aspectos, com la simultaneidad, la paralingüística, la dependencia del contexto y de la situación, la intención y la dependencia cultural. Por todo ello, repasaremos las actividades de investigación actuales y discutiremos varias cuestiones relacionadas con la traducción automática del habla de última generación.
- Published
- 2020
- Full Text
- View/download PDF
8. Evaluación de Rasgos Acústicos para el Reconocimiento Automático del Habla en Escenarios Ruidosos usando Kaldi.
- Author
-
Ramírez Sánchez, José Manuel, Montalvo Bereau, Ana Rosa, and Calvo de Lara, José Ramón
- Subjects
- *
AUTOMATIC speech recognition , *NOISE , *ACOUSTICS , *CEPSTRUM analysis (Mechanics) , *SPANISH language , *SPEECH processing systems - Abstract
The present investigation will evaluate the impact of Mel Frequency Cepstral Coefficients (MFCC) and the Perceptual Linear Predictors (PLP) coefficients, in the word error rate (WER) of systems dedicated to Automatic Speech Recognition (ASR). The experimentation will be done with voice signals in Spanish language, in scenarios with unknown noise levels and using the Kaldi state of the art tool. The article concludes by providing evidence in favor of the MFCC as acoustic feature more robust in the task of ASR in noisy scenarios with respect to the PLP; also both features behave similarly in low noise scenarios and the impact of PLP in reducing the time spent by systems dedicated to ASR. [ABSTRACT FROM AUTHOR]
- Published
- 2019
9. Doblaje automático de vídeo-charlas educativas en UPV[Media]
- Author
-
Pérez González de Martos, Alejandro Manuel, Giménez Pastor, Adrián, Jorge Cano, Javier, Iranzo Sánchez, Javier, Silvestre Cerdà, Joan Albert, Garcés Díaz-Munío, Gonzalo Vicente, Baquero Arnal, Pau, Sanchis Navarro, José Alberto, Civera Saiz, Jorge, Juan Císcar, Alfonso, and Turró Ribalta, Carlos
- Subjects
Text-to-speech ,Automatic dubbing ,Doblaje automático ,Automatic speech recognition ,OER ,Traducción automática ,Machine translation ,Reconocimiento automático del habla ,Síntesis de voz - Abstract
[EN] More and more universities are banking on the production of digital contents to support online or blended learning in higher education. Over the last years, the MLLP research group has been working closely with the UPV’s ASIC media services in order to enrich educational multimedia resources through the application of natural language processing technologies including automatic speech recognition, machine translation and text-tospeech. In this work we present the steps that are being followed for the comprehensive translation of these materials, specifically through (semi-)automatic dubbing by making use of state-of-the-art speaker-adaptive text-to-speech technologies., [ES] Cada vez son más las universidades que apuestan por la producción de contenidos digitales como apoyo al aprendizaje en lı́nea o combinado en la enseñanza superior. El grupo de investigación MLLP lleva años trabajando junto al ASIC de la UPV para enriquecer estos materiales, y particularmente su accesibilidad y oferta lingüı́stica, haciendo uso de tecnologı́as del lenguaje como el reconocimiento automático del habla, la traducción automática y la sı́ntesis de voz. En este trabajo presentamos los pasos que se están dando hacia la traducción integral de estos materiales, concretamente a través del doblaje (semi-)automático mediante sistemas de sı́ntesis de voz adaptables al locutor., Este trabajo ha recibido financiación del Gobierno de España a través de la subvención RTI2018-094879-B-I00 financiada por MCIN/AEI/10.13039/501100011033 (Multisub) y por ”FEDER Una manera de hacer Europa”; del programa Erasmus+ Educación a través del acuerdo de subvención 20-226-093604-SCH (EXPERT); and by the European Union’s Horizon 2020 research and innovation programme under grant agreement no. 761758 (X5gon).
- Published
- 2023
10. Streaming Automatic Speech Recognition with Hybrid Architectures and Deep Neural Network Models
- Author
-
Jorge Cano, Javier
- Subjects
Artificial intelligence ,Aprendizaje profundo ,Natural language processing ,Automatic speech recognition ,Deep learning ,Accesibilidad ,Accessibility ,Aprendizaje automático ,Inteligencia artificial ,Streaming automatic speech recognition ,Aprendizaje potenciado por la tecnología ,Machine learning ,Video lectures ,Videoconferencias ,Procesamiento del lenguaje natural ,Reconocimiento automático del habla ,LENGUAJES Y SISTEMAS INFORMATICOS ,Technology enhanced learning ,Reconocimiento automático del habla en tiempo real - Abstract
[ES] Durante la última década, los medios de comunicación han experimentado una revolución, alejándose de la televisión convencional hacia las plataformas de contenido bajo demanda. Además, esta revolución no ha cambiado solamente la manera en la que nos entretenemos, si no también la manera en la que aprendemos. En este sentido, las plataformas de contenido educativo bajo demanda también han proliferado para proporcionar recursos educativos de diversos tipos. Estas nuevas vías de distribución de contenido han llegado con nuevos requisitos para mejorar la accesibilidad, en particular las relacionadas con las dificultades de audición y las barreras lingüísticas. Aquí radica la oportunidad para el reconocimiento automático del habla (RAH) para cumplir estos requisitos, proporcionando subtitulado automático de alta calidad. Este subtitulado proporciona una base sólida para reducir esta brecha de accesibilidad, especialmente para contenido en directo o streaming. Estos sistemas de streaming deben trabajar bajo estrictas condiciones de tiempo real, proporcionando la subtitulación tan rápido como sea posible, trabajando con un contexto limitado. Sin embargo, esta limitación puede conllevar una degradación de la calidad cuando se compara con los sistemas para contenido en diferido u offline. Esta tesis propone un sistema de RAH en streaming con baja latencia, con una calidad similar a un sistema offline. Concretamente, este trabajo describe el camino seguido desde el sistema offline híbrido inicial hasta el eficiente sistema final de reconocimiento en streaming. El primer paso es la adaptación del sistema para efectuar una sola iteración de reconocimiento haciendo uso de modelos de lenguaje estado del arte basados en redes neuronales. En los sistemas basados en múltiples iteraciones estos modelos son relegados a una segunda (o posterior) iteración por su gran coste computacional. Tras adaptar el modelo de lenguaje, el modelo acústico basado en redes neuronales también tiene que adaptarse para trabajar con un contexto limitado. La integración y la adaptación de estos modelos es ampliamente descrita en esta tesis, evaluando el sistema RAH resultante, completamente adaptado para streaming, en conjuntos de datos académicos extensamente utilizados y desafiantes tareas basadas en contenidos audiovisuales reales. Como resultado, el sistema proporciona bajas tasas de error con un reducido tiempo de respuesta, comparables al sistema offline., [CA] Durant l'última dècada, els mitjans de comunicació han experimentat una revolució, allunyant-se de la televisió convencional cap a les plataformes de contingut sota demanda. A més a més, aquesta revolució no ha canviat només la manera en la que ens entretenim, si no també la manera en la que aprenem. En aquest sentit, les plataformes de contingut educatiu sota demanda també han proliferat pera proporcionar recursos educatius de diversos tipus. Aquestes noves vies de distribució de contingut han arribat amb nous requisits per a millorar l'accessibilitat, en particular les relacionades amb les dificultats d'audició i les barreres lingüístiques. Aquí radica l'oportunitat per al reconeixement automàtic de la parla (RAH) per a complir aquests requisits, proporcionant subtitulat automàtic d'alta qualitat. Aquest subtitulat proporciona una base sòlida per a reduir aquesta bretxa d'accessibilitat, especialment per a contingut en directe o streaming. Aquests sistemes han de treballar sota estrictes condicions de temps real, proporcionant la subtitulació tan ràpid com sigui possible, treballant en un context limitat. Aquesta limitació, però, pot comportar una degradació de la qualitat quan es compara amb els sistemes per a contingut en diferit o offline. Aquesta tesi proposa un sistema de RAH en streaming amb baixa latència, amb una qualitat similar a un sistema offline. Concretament, aquest treball descriu el camí seguit des del sistema offline híbrid inicial fins l'eficient sistema final de reconeixement en streaming. El primer pas és l'adaptació del sistema per a efectuar una sola iteració de reconeixement fent servir els models de llenguatge de l'estat de l'art basat en xarxes neuronals. En els sistemes basats en múltiples iteracions aquests models son relegades a una segona (o posterior) iteració pel seu gran cost computacional. Un cop el model de llenguatge s'ha adaptat, el model acústic basat en xarxes neuronals també s'ha d'adaptar per a treballar amb un context limitat. La integració i l'adaptació d'aquests models és àmpliament descrita en aquesta tesi, avaluant el sistema RAH resultant, completament adaptat per streaming, en conjunts de dades acadèmiques àmpliament utilitzades i desafiants tasques basades en continguts audiovisuals reals. Com a resultat, el sistema proporciona baixes taxes d'error amb un reduït temps de resposta, comparables al sistema offline., [EN] Over the last decade, the media have experienced a revolution, turning away from the conventional TV in favor of on-demand platforms. In addition, this media revolution not only changed the way entertainment is conceived but also how learning is conducted. Indeed, on-demand educational platforms have also proliferated and are now providing educational resources on diverse topics. These new ways to distribute content have come along with requirements to improve accessibility, particularly related to hearing difficulties and language barriers. Here is the opportunity for automatic speech recognition (ASR) to comply with these requirements by providing high-quality automatic captioning. Automatic captioning provides a sound basis for diminishing the accessibility gap, especially for live or streaming content. To this end, streaming ASR must work under strict real-time conditions, providing captions as fast as possible, and working with limited context. However, this limited context usually leads to a quality degradation as compared to the pre-recorded or offline content. This thesis is aimed at developing low-latency streaming ASR with a quality similar to offline ASR. More precisely, it describes the path followed from an initial hybrid offline system to an efficient streaming-adapted system. The first step is to perform a single recognition pass using a state-of-the-art neural network-based language model. In conventional multi-pass systems, this model is often deferred to the second or later pass due to its computational complexity. As with the language model, the neural-based acoustic model is also properly adapted to work with limited context. The adaptation and integration of these models is thoroughly described and assessed using fully-fledged streaming systems on well-known academic and challenging real-world benchmarks. In brief, it is shown that the proposed adaptation of the language and acoustic models allows the streaming-adapted system to reach the accuracy of the initial offline system with low latency.
- Published
- 2022
- Full Text
- View/download PDF
11. Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla.
- Author
-
Piñeiro Martín, Andrés, García-Mateo, Carmen, Docío-Fernández, Laura, and Luis Regueira, Xosé
- Abstract
Copyright of Procesamiento del Lenguaje Natural is the property of Sociedad Espanola para el Procesamiento del Lenguaje Natural and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2018
- Full Text
- View/download PDF
12. Uso de la entonación para identificar cuándo usar la tilde diacrítica en el reconocimiento automático del habla
- Author
-
Constantino Bolaños Araya, Arturo Camacho Lozano, and Ximena del Río Urrutia
- Subjects
acento diacrítico ,reconocimiento automático del habla ,procesamiento del lenguaje natural ,Fine Arts ,Philology. Linguistics ,P1-1091 ,French literature - Italian literature - Spanish literature - Portuguese literature ,PQ1-3999 - Abstract
Los métodos y técnicas computacionales de reconocimiento automático del habla son herramientas que poco a poco se incorporan en la vida cotidiana. Una de sus principales ventajas es que permiten a las personas registrar texto rápidamente usando uno de los medios que mejor saben usar: su voz. Desafortunadamente, esta tecnología aún no es perfecta y los errores de transcripción son comunes. En el idioma español, uno de los errores más comunes de esta tecnología, es la omisión de la tilde diacrítica. Esto se debe en gran medida a que las técnicas utilizadas en el reconocimiento automático del habla ignoran el acento, es decir, la sílaba acentuada de una palabra, que en el idioma español no tiene un patrón fijo, como en otras lenguas. Esto se debe a que estas técnicas fueron desarrolladas inicialmente para el idioma inglés, en el cual no hay tildes y el acento juega un papel menor en la diferenciación de las palabras. Nuestra propuesta es incorporar el análisis del tono en el reconocimiento automático del habla para mejorar la marcación de tildes diacríticas en un texto. Ensayos previos han mostrado que la creencia extendida de que la sílaba acentuada es siempre la más fuerte (la más intensa) es falsa. Por tanto, la intensidad, por sí sola, no es un buen indicador de la ubicación o presencia de la sílaba acentuada que debe ser tildada, sino que el tono también ha de ser considerado. En esta investigación se muestra que el tono puede ayudar a determinar la sílaba que debe ser tildada según nuestra convención gráfica.
- Published
- 2017
- Full Text
- View/download PDF
13. Diseño y desarrollo de un sistema prototipo para reconocimiento automático del hablante empleando técnicas de aprendizaje profundo
- Author
-
Calle Chuchuca, José Esteban and Robles Bykbaev, Vladimir Espartaco
- Subjects
COMPUTACIÓN ,ESPECTROGRAMA ,REDES NEURONALES (COMPUTADORES) ,RECONOCIMIENTO AUTOMÁTICO DEL HABLA ,COEfiCIENTES CEPSTRALES EN LAS FRECUENCIAS DE MEL ,FRECUENCIA FUNDAMENTAL - Abstract
Este proyecto pretende sentar las bases de un sistema con un potencial a desarrollar, utilizado para un nivel más alto de seguridad basándonos en características de la voz humana como frecuencia fundamental, Coeficiente de frecuencias ceptrales de Mel, entre otros parámetros que pueden ser extraído con el análisis de una espectro de frecuencia. This project aims to lay the foundations for a system with a potential to develop, used for a higher level of security based on characteristics of the human voice such as fundamental frequency, Mel's Coefficient of ceptral frequencies, among other parameters that can be extracted with the analysis of a frequency spectrum.
- Published
- 2022
14. Desarrollo de una aplicación para registro de asistencia mediante técnicas inteligentes como reconocimiento facial, reconocimiento del hablante y geolocalización
- Author
-
Romero Carrión, Yandry Daniel, Vásquez Fajardo, Franklin Joel, and Timbi Sisalima, Cristian Fernando
- Subjects
COMPUTACIÓN ,RECONOCIMIENTO DE MODELOS POR COMPUTADOR ,REDES NEURONALES (COMPUTADORES) ,RECONOCIMIENTO AUTOMÁTICO DEL HABLA ,APLICACIONES MÓVILES ,MARCOS DE SOFTWARE - Abstract
Actualmente nos encontramos en la búsqueda de nuevas herramientas, es por ello que en respuesta a esta necesidad, nace la idea de utilizar la tecnología para brindar una alternativa para registro de asistencia de empleados, una aplicación móvil que integre técnicas como el reconocimiento facial, reconocimiento del hablante y geolocalización. We are currently in search of new tools, which is why in response to this need, the idea was born to use technology to provide an alternative for employee attendance registration, a mobile application that integrates techniques such as facial recognition, speaker recognition and geolocation.
- Published
- 2022
15. Framework para la automatización del maquetado de páginas web aplicando procesamiento de lenguaje natural
- Author
-
Prudencio-Nieves, Julio
- Subjects
User interfaces ,Natural language processing ,Procesamiento de lenguaje natural ,Automatic speech recognition ,Interfaces de usuario ,Human computer interaction ,Web page design ,Diseño de página web ,Reconocimiento automático del habla ,Interacción humano computador - Abstract
Web layout is constantly evolving and new professionals in the field are joining each time. However, the development tools and environments seem to have lagged behind the traditional: simple use of the keyboard to code and little motivation and innovation in the use of other means of coding, such as voice, to improve and expand its use. For this reason, a modern and innovative web framework has been developed that applies natural language processing theory to automate web layout through the use of CSS 3 and speech recognition technologies. The framework has been validated through the application of a questionnaire made up of 6 dimensions and 31 indicators valued from 1 to 5 according to the Likert scale and to obtain the results, the statistical technique called correlation measures has been used. The results show that the framework improves by: 38.59% the web layout in general, 41.46% the layout of the animations, 39.22% the layout of the buttons, 32.33% the layout of the content, 39.94% the layout of the background, 41.04% the layout of the images and 39.28% the layout of the typography., El maquetado web está en constante evolución y cada vez se incorporan nuevos profesionales en la materia. No obstante, las herramientas y los entornos de desarrollo parecen haberse quedado rezagados a lo tradicional: simple uso del teclado para codificar y poca motivación e innovación en el uso de otros medios de codificación, como la voz, que permitan mejorar y ampliar su uso. Por ello, se ha desarrollado un framework web moderno e innovador que aplica la teoría de procesamiento de lenguaje natural para automatizar el maquetado web mediante el uso de las tecnologías CSS 3 y reconocimiento de voz. El framework ha sido validado mediante la aplicación de un cuestionario conformado por 6 dimensiones y 31 indicadores valorizados del 1 al 5 en función a la escala de Likert y para la obtención de los resultados se ha utilizado la técnica estadística denominada medidas de correlación. Los resultados demuestran que el framework mejora en un: 38.59% el maquetado web en general, 41.46% el maquetado de las animaciones, 39.22% el maquetado de los botones, 32.33% el maquetado del contenido, 39.94% el maquetado del fondo, 41.04% el maquetado de las imágenes y 39.28% el maquetado de la tipografía.
- Published
- 2022
16. DISEÑO Y MANIPULACIÓN DE MODELOS OCULTOS DE MARKOV, UTILIZANDO HERRAMIENTAS HTK: UNA TUTORÍA DESIGN AND MANIPULATION OF HIDDEN MARKOV MODELS USING HTK TOOLS: A TUTORIAL
- Author
-
Roberto Carrillo Aguilar
- Subjects
Reconocimiento automático del habla ,HTK ,HMM ,Automatic Speech Recognition ,Mechanical engineering and machinery ,TJ1-1570 ,Industrial engineering. Management engineering ,T55.4-60.8 - Abstract
Este trabajo da a conocer el sistema de desarrollo de software para el diseño y manipulación de modelos ocultos de Markov, denominado HTK. Actualmente, la técnica de modelos ocultos de Markov es la herramienta más efectiva para implementar sistemas reconocedores del habla. HTK está orientado principalmente a ese aspecto. Su arquitectura es robusta y autosuficiente. Permite: la entrada lógica y natural desde un micrófono, dispone de módulos para la conversión A/D, preprocesado y parametrización de la información, posee herramientas para definir y manipular modelos ocultos de Markov, tiene librerías para entrenamiento y manipulación de los modelos ocultos de Markov ya definidos, considera funciones para definir la gramática, y además: Una serie de herramientas adicionales permiten lograr el objetivo final de obtener una hipotética transcripción del habla (conversión voz - texto).This paper presents HTK, a software development platform for the design and management of Hidden Markov Models. Nowadays, the Hidden Markov Models technique is the more effective one to implement voice recognition systems. HTK is mainly oriented to this application. Its architecture is robust and self-sufficient. It allows a natural input from a microphone, it has modules for A/D conversion, it allows pre-processing and parameterization of information, it possesses tools to define and manage the Hidden Markov Models, libraries for training and use the already defined Hidden Markov Models. It has functions to define the grammar and it has additional tools to reach the final objective, to obtain an hypothetical transcription of the talking (voice to text translation).
- Published
- 2007
17. Reconocimiento del habla mediante el uso de la correlación cruzada y una perceptrón multicapa
- Author
-
Carlos A. de Luna-Ortega, Miguel Mora-González, Julio C. Martínez-Romo, Francisco J. Luna-Rosas, and Jesús Muñoz-Maciel
- Subjects
reconocimiento automático del habla ,correlación cruzada ,perceptrón multicapa ,codificación de predicción lineal ,Science ,Science (General) ,Q1-390 ,Social Sciences ,Social sciences (General) ,H1-99 - Abstract
En el presente artículo se da a conocer una alternativa algorítimica a los sistemas actuales de reconocimiento automático del habla (ASR), mediante una propuesta en la forma de realizar la caracterización de las palabras basada en una aproximación que usa la extracción de coeficientes de la codificación de predicción lineal (LPC) y la correlación cruzada. La implementación consiste en extraer las características fonéticas mediante los coeficientes LPC, después se forman vectores de patrones de la pronunciación conformados por el promedio de los coeficientes LPC de las muestras de las palabras obteniendo un vector característico de cada pronunciación mediante la autocorrelación de las secuencias de coeficientes LPC; estos vectores se utilizan para entrenar un clasificador de tipo perceptrón multicapa (MLP). Se realizaron pruebas de desempeño previo entrenamiento con los diferentes patrones de las palabras a reconocer. Se utilizó la fonética de los dígitos del cero al nueve como vocabulario objetivo, debido a su amplia aplicación, y para estimar el desempeño de este método se utilizaron dos corpus de pronunciaciones: el corpus UPA, que contempla en su base de datos la pronuncación de la región occidente de México, y el corpus Tlatoa, que hace lo propio para la región centro de México. Las señales en ambos corpus fueron adquiridas en el lenguaje español, y a una frecuencia de muestreo de 8kHz. Los porcentajes de reconocimiento obtenidos fueron del 96.7 y 93.3% para las modalidades de mono-locutor para el corpus UPA y múltiple-locutor para el corpus Tlatoa, respectivamente. Asimismo, se realizó una comparación contra dos métodos clásicos del reconocimiento de voz y del habla, Dynamic Time Warping (DTW) y Hidden Markov Models (HMM).
- Published
- 2014
- Full Text
- View/download PDF
18. Overcoming segmental difficulties in English pronunciation in Spanish 3-ESO bilingual students through the use of SpeechAce
- Author
-
Avellón Mayor, Lidia, Vilalta Nieto, Miguel, Universidad de Valladolid. Facultad de Filosofía y Letras, Avellón Mayor, Lidia, Vilalta Nieto, Miguel, and Universidad de Valladolid. Facultad de Filosofía y Letras
- Abstract
The aim of this study is to account for the main problems with which secondary school students are faced in terms of English pronunciation, and to look into the effectiveness of ‘SpeechAce’ as a tool for English phoneme pronunciation improvement. Specifically, the data obtained were evaluated considering the challenging English phonemes, the mispronunciation rate of each English phoneme prior to the use of ‘SpeechAce’, and the improvement rate shown upon its use. The results obtained show that both consonant and vowel sounds present similar mispronunciation rates before the use of ‘SpeechAce’ as well as similar improvement rates after its use. Thereby, ‘SpeechAce’ has proved to be a useful tool to overcome secondary school students’ segmental difficulties in English pronunciation., El objetivo de este Trabajo de Fin de Máster consiste en explicar los principales problemas de pronunciación inglesa que presentan los alumnos de Educación Secundaria Obligatoria e investigar la efectividad de ‘SpeechAce’ como herramienta para solventarlos. En concreto, se han analizado los fonemas ingleses más complicados, la tasa de pronunciación incorrecta de cada fonema antes de utilizar ‘SpeechAce’, y la tasa de mejora después de su uso. En términos generales, los resultados del estudio demuestran que los sonidos consonánticos y vocálicos presentan tasas similares de pronunciación incorrecta antes del uso de ‘SpeechAce’, además de tasas de mejora semejantes después de su uso. Por lo tanto, ‘SpeechAce’ ha demostrado ser una herramienta de utilidad a la hora de solucionar los problemas relacionados con los elementos segmentales de la pronunciación inglesa., Departamento de Filología Inglesa, Máster en Profesor de Educación Secundaria Obligatoria y Bachillerato, Formación Profesional y Enseñanzas de Idiomas
- Published
- 2021
19. Development and Evaluation of an Automatic Speech Recognition System Adapted to the Transcription of Classroom Video Recordings
- Author
-
Sanchis Navarro, José Alberto, Giménez Pastor, Adrián, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació, Universitat Politècnica de València, Generalitat Valenciana, Roselló Beneitez, Nahuel Unai, Sanchis Navarro, José Alberto, Giménez Pastor, Adrián, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació, Universitat Politècnica de València, Generalitat Valenciana, and Roselló Beneitez, Nahuel Unai
- Abstract
[ES] El Reconocimiento Automático del Habla (RAH) ha demostrado ser una manera efectiva y eficiente de convertir habla a texto a lo largo de los últimos años. Este trabajo, desarrollado en el contexto de dos proyectos apoyados por el Gobierno de España y la Generalitat Valenciana, explora el uso del RAH en el contexto de grabaciones de clases de aula. Con este fin, se explota un conjunto de datos con más de 1400 horas de grabaciones de clases. Este conjunto se compone de dos fuentes de datos (micrófonos de solapa y cámara) que graban una clase determinada al mismo tiempo, aunque una de las fuentes tiene peor calidad que la otra. A lo largo de esta memoria, se describen algunos de los problemas que se han dado en los proyectos, como el hecho de que inicialmente el conjunto de datos no viene dado con ninguna transcripción, o que ambas fuentes de datos no estaban perfectamente sincronizadas en algunos casos. Este trabajo también presenta experimentos llevados a cabo con la fuente de datos de mejor calidad, y replicados con ambas fuentes de audio con el fin de comparar las dos aproximaciones. Además, se reentrena un sistema ya existente con ambas fuentes de audio. El sistema resultante, previamente entrenado con casi 4000 horas de audio, se compara con el resto de sistemas desarrollados. Finalmente, este trabajo expone algunas conclusiones extraídas de los experimentos anteriormente mencionados., [EN] Automatic Speech Recognition (ASR) has proven to be an efficient and effective way of converting speech to text over the last years. This work, performed in the context of two projects from the Government of Spain and the Generalitat Valenciana, explores the usage of ASR in the context of classroom video recordings. In order to do this, a dataset consisting of more than 1400 hours of classroom recordings is exploited. The dataset is divided into two sources (clip-on and camera microphones) which record a given class at the same time, even though one of them is noisier than the other. Several obstacles faced in the work carried out are described, such as the fact that the transcriptions of the recordings were not initially included in the dataset, or the fact that both sources of audio were not perfectly synchronized in some recordings. This work also presents experiments performed with the cleaner source of audio and replicated with both sources of audio so as to compare both approaches. Moreover, a baseline system trained with nearly 4000 hours is retrained with both sources of audio and the resulting system is compared to the rest of the developed systems. Finally, this work ends with some conclusions extracted from the previously mentioned experiments.
- Published
- 2021
20. Closed Captions: generador de subtítulos automáticos offline empleando un motor de conversión de voz a texto (STT)
- Author
-
García Granada, Fernando, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació, Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica, Aibar Armero, Javier, García Granada, Fernando, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació, Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica, and Aibar Armero, Javier
- Abstract
[ES] Ver películas en el idioma que se estudia es muy beneficioso para el alumno, ya que permite asentar ciertas bases lingüísticas aplicadas en un contexto realista en el que se utiliza lenguaje adecuado a la situación expuesta en el metraje. No obstante, para facilitar la comprensión de la trama por parte del espectador, es importante que exista un refuerzo textual del lenguaje oral utilizado en la película, es decir, subtítulos. Pese a que hoy en día resulta fácil encontrar películas subtituladas, emplear subtítulos en tu idioma materno suele derivar en prestar mayor atención a la lectura que a la escucha, por lo que, si el nivel del alumno lo permite, comenzar a leer los subtítulos en el idioma que se aprende resulta un avance muy interesante en la práctica del idioma. El problema yace en que a menudo, los subtítulos no suelen representar exactamente al audio si no que presentan un significado similar expresado de forma diferente. Para solucionar dicho problema, en este trabajo se pretende desarrollar una aplicación que, mediante un motor Speech-To-Text, procese y transcriba archivos de audio en closed captions con cierto grado de confianza. Dicho texto será transcrito a un archivo SubRip (.srt) con sus correspondientes marcas de tiempo que será reconocido directamente por cualquier reproductor que permita subtitulación, como, por ejemplo, VLC media player., [EN] Watching films in the target language is very beneficial for the learner, as it allows certain linguistic foundations to be established in a realistic context in an appropriate language used to the situation depicted in the film. However, in order to facilitate the viewer's understanding of the plot, it is important that there is textual reinforcement of the spoken language used in the film, i. e. subtitles. Although it is easy to find subtitled films nowadays, using subtitles in your mother tongue often means paying more attention to reading than listening, therefore, if the learner's level allows it, starting to read subtitles in the language being learnt is a very interesting step forward in language practice. The problem lies in the fact that subtitles often do not exactly represent the audio, but rather present a similar meaning expressed in a different way. To solve this problem, this work aims to develop an application that, by means of a Speech-To-Text engine, processes and transcribes audio files into closed captions with a certain degree of confidence. This text will be transcribed to a SubRip (.srt) file with its corresponding time stamps that will be directly recognised by any player that allows subtitling, such as, for example, VLC media player., [CA] Veure pel·lícules en l'idioma que s'estudia és molt beneficiós per a l'alumne, ja que permet assentar certes bases lingüístiques aplicades en un context realista en el qual s'utilitza llenguatge adequat a la situació exposada en el metratge. No obstant això, per facilitar la comprensió de la trama per part de l'espectador, és important que hi haja un reforç textual de la llengua oral utilitzat en la pel·lícula, és a dir, subtítols. Malgrat que hui en dia resulta fàcil trobar pel·lícules subtitulades, emprar subtítols en el teu idioma matern sol derivar en prestar més atenció a la lectura que a l'escolta, de manera que, si el nivell de l'alumne ho permet, començar a llegir els subtítols en l'idioma que s'aprèn resulta un avanç molt interessant en la pràctica de l'idioma. El problema rau en que sovint, els subtítols no solen representar exactament a l'àudio sinó que presenten un significat similar expressat de forma diferent. Per solucionar aquest problema, en aquest treball es pretén desenvolupar una aplicació que, mitjançant un motor Speech-To-Text, processe i transcriga arxius d'àudio en closed captions amb cert grau de confiança. Dit text serà transcrit a un arxiu SubRip (.srt) amb les seues corresponents marques de temps que serà reconegut directament per qualsevol reproductor que permeta subtitulació, com, per exemple, VLC media player.
- Published
- 2021
21. Aplicación de métodos de aprendizaje semi-supervisados para el reconocimiento del habla en personas con afasia
- Author
-
Romero Ferrón, Mónica, Conesa Caralt, Jordi, and González Torre, Iván
- Subjects
redes neuronales ,reconocimiento automático del habla ,xarxes neuronals ,automatic speech recognition ,wav2vec2.0 ,neural networks ,NLP ,aphasia ,Redes neuronales -- TFM ,afasia ,Neural networks (Computer science) -- TFM ,reconeixement automàtic de la parla ,RAH ,Xarxes neuronals (Informàtica) --TFM ,fàsia - Abstract
Tradicionalmente, los sistemas de reconocimiento automático del habla (RAH) requieren de algoritmos que utilizan bases de datos etiquetadas para su aprendizaje. Sin embargo, un reciente y novedoso enfoque desarrolla modelos semi-supervisados que tienen la capacidad de realizar una parte de su entrenamiento con datos no etiquetados, facilitando así su uso en entornos donde los datos etiquetados son escasos. Este trabajo de investigación esta centrado en la aplicación de estos métodos de aprendizaje en el ámbito de la salud y, más concretamente, en voces patológicas proveniente de hablantes con diferentes tipos de afasia. Se ha trabajado con la base de datos de referencia AphasiaBank, que contiene 78 horas de audios de pacientes con diferentes grados de afasia, y que ya ha sido empleada por otros grupos de investigación. A nivel de modelado, se ha optimizado y a nado la arquitectura de aprendizaje semi-supervisado empleada sobre estos datos de dominio, a través de la aplicación de la técnica Grid Search y de la búsqueda exhaustiva de los hiperparámetros del modelo. En este estudio se comparan los resultados obtenidos con los que se reflejan en el estado del arte. Se demuestra que el modelo de reconocimiento obtenido presenta resultados que mejoran otro tipo de enfoques publicados anteriormente. Tradicionalment, els sistemes de reconeixement automàtic de la parla (RAH) requereixen d'algorismes que utilitzen bases de dades etiquetades per al seu aprenentatge. No obstant això, un recent i nou enfocament desenvolupa models semi-supervisats que tenen la capacitat de realitzar una part del seu entrenament amb dades no etiquetades, facilitant així el seu ús en entorns on les dades etiquetades són escassos. Aquest treball de recerca aquesta centrat en l'aplicació d'aquests mètodes d'aprenentatge en l'àmbit de la salut i, més concretament, en veus patològiques provinent de parlants amb diferents tipus d'afàsia. S'ha treballat amb la base de dades de referència AphasiaBank, que conté 78 hores d'àudios de pacients amb diferents graus d'afàsia, i que ja ha estat emprada per altres grups de recerca. A nivell de modelatge, s'ha optimitzat i nadant l'arquitectura d'aprenentatge semi-supervisat empleada sobre aquestes dades de domini, a través de l'aplicació de la tècnica Grid Search i de la cerca exhaustiva dels hiperparámetros del model. En aquest estudi es comparen els resultats obtinguts amb els quals es reflecteixen en l'estat de l'art. Es demostra que el model de reconeixement obtingut presenta resultats que milloren un altre tipus d'enfocaments publicats anteriorment. Traditionally, automatic speech recognition (ASR) systems require algorithms that use labeled databases for learning. However, a recent novel approach develops semi-supervised models that have the ability to perform part of their training on unlabeled data, thus facilitating their use in environments where labeled data is scarce. This research work is focused on the application of these learning methods in the health domain and, more specifically, on pathological voices coming from speakers with different types of aphasia. We have worked with the reference database AphasiaBank, which contains 78 hours of audios from patients with different degrees of aphasia, and which has already been used by other research groups. At the modeling level, the semi-supervised learning architecture used on this domain data has been optimized and tuned through the application of the Grid Search technique and the exhaustive search of the hyperparameters of the model. In this study, the results obtained are compared with those reflected in the state of the art. It is shown that the obtained recognition model presents results that improve other types of previously published approaches.
- Published
- 2021
22. Closed Captions: generador de subtítulos automáticos offline empleando un motor de conversión de voz a texto (STT)
- Author
-
Aibar Armero, Javier
- Subjects
Grado en Ingeniería Informática-Grau en Enginyeria Informàtica ,Automatic subtitling ,Subtitulado automático ,Automatic speech recognition (ASR) ,Reconocimiento automático del habla ,LENGUAJES Y SISTEMAS INFORMATICOS ,Closed captions - Abstract
[ES] Ver películas en el idioma que se estudia es muy beneficioso para el alumno, ya que permite asentar ciertas bases lingüísticas aplicadas en un contexto realista en el que se utiliza lenguaje adecuado a la situación expuesta en el metraje. No obstante, para facilitar la comprensión de la trama por parte del espectador, es importante que exista un refuerzo textual del lenguaje oral utilizado en la película, es decir, subtítulos. Pese a que hoy en día resulta fácil encontrar películas subtituladas, emplear subtítulos en tu idioma materno suele derivar en prestar mayor atención a la lectura que a la escucha, por lo que, si el nivel del alumno lo permite, comenzar a leer los subtítulos en el idioma que se aprende resulta un avance muy interesante en la práctica del idioma. El problema yace en que a menudo, los subtítulos no suelen representar exactamente al audio si no que presentan un significado similar expresado de forma diferente. Para solucionar dicho problema, en este trabajo se pretende desarrollar una aplicación que, mediante un motor Speech-To-Text, procese y transcriba archivos de audio en closed captions con cierto grado de confianza. Dicho texto será transcrito a un archivo SubRip (.srt) con sus correspondientes marcas de tiempo que será reconocido directamente por cualquier reproductor que permita subtitulación, como, por ejemplo, VLC media player., [EN] Watching films in the target language is very beneficial for the learner, as it allows certain linguistic foundations to be established in a realistic context in an appropriate language used to the situation depicted in the film. However, in order to facilitate the viewer's understanding of the plot, it is important that there is textual reinforcement of the spoken language used in the film, i. e. subtitles. Although it is easy to find subtitled films nowadays, using subtitles in your mother tongue often means paying more attention to reading than listening, therefore, if the learner's level allows it, starting to read subtitles in the language being learnt is a very interesting step forward in language practice. The problem lies in the fact that subtitles often do not exactly represent the audio, but rather present a similar meaning expressed in a different way. To solve this problem, this work aims to develop an application that, by means of a Speech-To-Text engine, processes and transcribes audio files into closed captions with a certain degree of confidence. This text will be transcribed to a SubRip (.srt) file with its corresponding time stamps that will be directly recognised by any player that allows subtitling, such as, for example, VLC media player., [CA] Veure pel·lícules en l'idioma que s'estudia és molt beneficiós per a l'alumne, ja que permet assentar certes bases lingüístiques aplicades en un context realista en el qual s'utilitza llenguatge adequat a la situació exposada en el metratge. No obstant això, per facilitar la comprensió de la trama per part de l'espectador, és important que hi haja un reforç textual de la llengua oral utilitzat en la pel·lícula, és a dir, subtítols. Malgrat que hui en dia resulta fàcil trobar pel·lícules subtitulades, emprar subtítols en el teu idioma matern sol derivar en prestar més atenció a la lectura que a l'escolta, de manera que, si el nivell de l'alumne ho permet, començar a llegir els subtítols en l'idioma que s'aprèn resulta un avanç molt interessant en la pràctica de l'idioma. El problema rau en que sovint, els subtítols no solen representar exactament a l'àudio sinó que presenten un significat similar expressat de forma diferent. Per solucionar aquest problema, en aquest treball es pretén desenvolupar una aplicació que, mitjançant un motor Speech-To-Text, processe i transcriga arxius d'àudio en closed captions amb cert grau de confiança. Dit text serà transcrit a un arxiu SubRip (.srt) amb les seues corresponents marques de temps que serà reconegut directament per qualsevol reproductor que permeta subtitulació, com, per exemple, VLC media player.
- Published
- 2021
23. Modelo computacional para la generación automática de diálogos de un dominio específico mediante el uso de técnicas de aprendizaje automático
- Author
-
Vázquez Flores, José Andrés and Pinto Avendaño, David Eduardo
- Subjects
Interacción hombre-computadora ,Sistemas de procesamiento del habla ,Lingüística computacional ,Reconocimiento automático del habla ,INGENIERÍA Y TECNOLOGÍA - Abstract
"La IHC es un campo de estudio dedicado a comprender, diseñar y evaluar sistemas de cómputo para su uso por o con humanos. La interacción, por definición, requiere comunicación entre humanos, computadoras y dispositivos. La IHC es actualmente una actividad de investigación y diseño muy extensa y diversa. La literatura se está expandiendo rápidamente, con cientos de publicaciones cada año y con la actividad de diferentes sociedades profesionales y reuniones ad hoc, principalmente en las disciplinas técnicas de ingeniería mecánica y eléctrica, ciencias de la computación y ciencias de control e inteligencia artificial. El objetivo de las investigaciones en torno a la IHC es definir modelos que cubran las expectativas de los seres humanos con respecto a la interacción con las computadoras para guiar el diseño de ´este y el desarrollo de algoritmos que permitan una interacción más natural y eficaz con los seres humanos. Con el avance de la Inteligencia Artificial (IA; del inglés Artificial Intelligence: AI), las investigaciones se centran en una parte hacia la interacción física más segura y además sobre una interacción socialmente correcta, dependiente de criterios culturales."
- Published
- 2020
24. Desarrollo y evaluación de un sistema de Reconocimiento Automático del Habla en Polaco utilizando la herramienta informática TLK
- Author
-
Roselló Beneitez, Nahuel Unai
- Subjects
Polaco ,Aprendizaje profundo ,Grado en Ingeniería Informática-Grau en Enginyeria Informàtica ,Automatic speech recognition ,Deep learning ,Aprendizaje automático ,TLK ,Polish ,Reconocimiento de formas ,Pattern recognition ,Machine learning ,Reconocimiento automático del habla ,LENGUAJES Y SISTEMAS INFORMATICOS - Abstract
[EN] Automatic speech recognition (ASR) is a branch of pattern recognition that has currently gained popularity due to technological and structural advances in this field. This work presents the process of making a Polish automatic speech recognition system based on current state-of-the-art techniques. To this end, the TLK toolkit is used, as well as other relevant tools. The datasets used to train the final models are examined and described. Moreover, the process of creating the models from scratch is described. To conclude, the performance of the final system is compared with respect to several systems evaluated in the context of the PolEval 2019 challenge., [ES] El reconocimiento automático del habla (ASR por sus siglas en inglés) es una rama del reconocimiento de patrones que ha ganado una gran popularidad en los últimos años gracias a los avances tecnológicos y estructurales en este campo. Este trabajo presenta el proceso de creación de un sistema de reconocimiento automático del habla polaca basado en técnicas actualmente estado de la técnica. Con este fin, se hace uso de la herramienta TLK, además de otras herramientas relevantes. También se examinan y describen los conjuntos de datos usados para entrenar los modelos finales, además de describirse el proceso de creación de estos últimos partiendo desde el principio. Finalmente, el sistema desarrollado se compara con otros sistemas evaluados en el contexto de la competición de PolEval 2019., [CA] El reconeixement automàtic de la parla (ASR per les seues sigles en anglés) és una branca del reconeixement de patrons que ha guanyat popularitat gràcies als avanços tecnològics i estructurals en aquest camp. Aquest treball presenta el procés de creació d’un sistema automàtic reconeixedor de la parla polonesa basat en tècniques actualment estat de la tècnica. Amb aquesta finalitat, s’utilitza l’eina TLK, a més d’altres eines rellevants. D’altra banda, s’examinen i es descriuen els conjunts de dades usats per a entrenar els models finals. A més, el procés de creació dels models es descriu partint des del principi. Finalment, el sistema desenvolupat es compara amb altres sistemes avaluats en el context de la competició de PolEval 2019.
- Published
- 2020
25. Desarrollo e implantación de un sistema de reconocimiento del habla para la elaboración de informes médicos
- Author
-
Feng Ho, Alex
- Subjects
Sphinx4 ,Medicina nuclear ,Nuclear medicine ,Automatic speech recognition ,Informes médicos ,Modelo de lenguaje ,Reconocimiento automático del habla ,HMM ,LENGUAJES Y SISTEMAS INFORMATICOS ,Medical report ,Máster Universitario en Ingeniería Informática-Màster Universitari en Enginyeria Informàtica ,Languaje model - Abstract
[ES] Dentro de las tareas de los colaboradores de los hospitales o centros médicos, refiriéndose específicamente a los médicos de diagnóstico en laboratorios, la mayor parte del esfuerzo y tiempo recae en la redacción de informes médicos. Debido a ello, el número de pacientes que se pueden atender y el servicio que pueden ofrecer se ve reducido. En este trabajo se propone el diseño y desarrollode un sistema de reconocimiento automático del habla (RAH) utilizando CMU Sphinx4 y Kylm para la elaboración de informes médicos y su implantación en el servicio de medicina nuclear del hospital Dr. Peset en Valencia. El desarrollo y adaptación de sistemas de RAH a problemas muy concretos es posible graciasa los avances en las últimas décadas en este campo y a la disponibilidad de datos accesibles en formato abierto. Los experimentos iniciales se realizan con un modelo acústico pre-entrenado en español del proyecto VoxForge y un corpus de texto que contiene un vocabulario con más de 18 000 palabras referentes a informes médicos de medicina nuclear. Como resultado de la experimentación, se ha obtenido un valor WER promedio de 26,6 % sin adaptación al locutor y se ha logrado mejorar a un WER promedio de 23,1 % con adaptación MAP indicando una reducción del error en 13,2 %. La aplicación y código fuente se encuentran disponible enhttps://sourceforge.net/projects/asr-for-medical-reporting/bajo licencia GNU (GPLv3)., [EN] Among the tasks of collaborators in hospitals or medical centers, specifically referring to diagnostic doctors in laboratories, most of the effort and time falls on the writing of medical reports. Due to this, the number of patients that can be attended and the service they can offer is reduced. This work proposes the design and development of an automatic speech recognition (ASR) system using CMU Sphinx4 and Kylm for the preparation of medical reports and their implementation in the nuclear medicine service of the Dr. Peset hospital in Valencia. The development and adaptation of ASR systems to very specific problems is possible thanks to the advances in the last decades in this field and the availability of open data. Initial experiments are performed with a pre-trained acoustic model in Spanish from the VoxForge project and a corpus of text containing a vocabulary of more than 18 000 words referring to nuclear medicine medical reports. As a result of experimentation, an average WER value of 26,6% has been achieve without speaker adaptation and it has been possible to improve to an average WER of 23,1% with MAP adaptation indicating a reduction of error in 13,2% . The application and source code are available in https://sourceforge.net/projects/asr-for-medical-reporting/ under GNU (GPLv3) license., [CA] Dins de les tasques dels col·laboradors als hospitals i centres mèdics, referintse específicament als metges de diagnòstic en laboratori, la major part del esforç i del temps es dedicat a la redacció de informes mèdics. A conseqüència, el nombre de pacients que es poden atendre i el servei que es pot oferir es veu reduït. En aquest treball es proposa el disseny i desenvolupament d’un sistema de reconeixement automàtic de la parla (RAP) utilitzant CMU Sphinx4 i Kylm per a l’elaboració d’informes mèdics i la seua implantació en el servei de medicina nuclear de l’hospital Dr. Peset a València. El desenvolupament y adaptació de sistemes RAH a problemes molt concrets es possible gràcies als avanços en les últimes dècades en aquest camp i a la disponibilitat de dades accessibles de forma oberta. Els experiments inicials es realitzen amb un model acústic prèviament entrenat en espanyol del projecte VoxForge i un corpus de text que conté un vocabulari amb més de 18 000 paraules que fan referència a informes mèdics de medicina nuclear. Com a resultat de l’experimentació, s’ha obtingut un valor WER mitjà de 26,6% sense adaptació al locutor i s’- ha aconseguit millorar a un WER mitjà de 23,1% amb adaptació MAP indicant una reducció del error en 13,2%. L’aplicació i el codi font estan disponibles a https://sourceforge.net/projects/asr-for-medical-reporting/ baix llicència GNU (GPLv3)., A Elisa Caballero y Pedro Abreu por su gran disposición y colaboración durante el desarrollo de este trabajo de fin de máster. A los colaboradores del servicio de medicina nuclear del hospital Dr. Peset por su disposición y ayuda en los experimentos que se llevaron a cabo en este trabajo.
- Published
- 2020
26. Sistema para identificación de hablantes robusto a cambios en la voz
- Author
-
Guillermo Arturo Martínez Mascorro and Gualberto Aguilar Torres
- Subjects
características de voz ,coeficientes cepstrales en la frecuencia de Mel ,máquina de soporte vectorial ,reconocimiento automático del habla ,red neuronal artificial ,Technology ,Science (General) ,Q1-390 - Abstract
Los sistemas de reconocimiento de hablante se componen de tres partes principales: preprocesamiento, extracción de características y clasificación de vectores. En el trabajo presente se considera la cuestión de los cambios en la voz, voluntarios e involuntarios, y cómo esto afecta al reconocimiento de hablante. Para este proyecto se detalla todo el pre procesamiento que se realiza sobre la señal y cómo se obtienen los segmentos vocalizados de la misma. También se aplica un modelo de elaboración de vectores característicos basados en ciertas propiedades de la voz, y en Coeficientes Cepstrales en la Frecuencia de Mel (MFCC), así como una Máquina de Soporte Vectorial (SVM) y una Red Neuronal Artificial (ANN) como clasificadores, posteriormente se comparan los resultados obtenidos. Las pruebas realizadas consisten en analizar la trama que se le presenta al sistema, detectar el segmento vocalizado e indicarle al sistema de qué vocal se trata, para posteriormente, identificar a qué persona pertenece dicha vocal. Los resultados muestran que la elaboración de estos vectores conjuntando propiedades y coeficientes MFCC tienen un alto índice de reconocimiento.
- Published
- 2012
- Full Text
- View/download PDF
27. Incorporación de un reconocedor automático de voz local sobre plataformas Android
- Author
-
Blasco Arnaiz, Santiago, Cardeñoso Payo, Valentín, Universidad de Valladolid. Escuela de Ingeniería Informática de Valladolid, Blasco Arnaiz, Santiago, Cardeñoso Payo, Valentín, and Universidad de Valladolid. Escuela de Ingeniería Informática de Valladolid
- Abstract
Hoy en día, todos tenemos al alcance de nuestra mano un smartphone capaz de transcribir nuestras palabras, es habitual que estos reconocedores de voz necesiten una conexión a internet para llevar a cabo esta función ya que no es nuestro dispositivo el que realiza ese reconocimiento, él sólo se encarga de enviar el audio y recibir la transcripción. Este trabajo tiene como objetivo implementar un reconocedor automático de voz local, es decir, la creación de una aplicación Android capaz de reconocer palabras o frases sin necesitar acceso a internet para llevar a cabo esta función. Para crear este reconocedor se utilizará el software proporcionado por Kaldi ya que proporciona herramientas para trabajar con redes neuronales profundas, que pueden ser entrenadas de forma eficiente mediante procesamiento por GPU, y también con modelos ocultos de Markov, juntos sirven para generar modelos de lenguaje y actuar como reconocedores automáticos del habla. Para utilizar el modelo que generamos con la herramienta ya mencionada utilizaremos la API de VOSK, que nos proporciona métodos para crear y usar dicho modelo., Today, we all have at our reach a smartphone able of transcribing our words, it is common for these voice recognizers to need an internet connection to carry out this function because it is not our device which performs this recognition, this only takes care of sending the audio and receiving the transcription. This work aims to implement an automatic local voice recognizer, that is, the creation of an Android application able to recognize words or phrases without needing internet access to carry out this function. To create this recognizer, the software provided by Kaldi will be used as it provides tools to work with deep neural networks, which can be eficiently trained through GPU processing, and also with hidden Markov models, together they serve to generate language models and act as automatic speech recognizers. To use the model that we generate with the previously mentioned tool, we will use the VOSK API, which provides us methods to create and use models., Grado en Ingeniería Informática
- Published
- 2020
28. Asistente Virtual offline de código abierto con síntesis del habla y audio distribuido
- Author
-
Hurtado Oliver, Lluis Felip, Pla Santamaría, Ferran, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació, López Fernández, Jacobo, Hurtado Oliver, Lluis Felip, Pla Santamaría, Ferran, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació, and López Fernández, Jacobo
- Abstract
[ES] Los sistemas de asistente virtual deberían gestionar sistemas de diálogo en los que se deben reconocer las intenciones de los usuarios de forma precisa. Hoy en día, el mercado de los asistentes virtuales está dominado por unas pocas grandes empresas. Éstas intercambian la posibilidad de poseer dichos sistemas a cambio de los datos obtenidos de los usuarios de forma directa o indirecta. Los sistemas que se ofrecen en el mercado se mantienen conectados a la red para hacer uso de tecnologías que permitan devolver respuestas más elaboradas, a la vez que almacenan información del usuario en la nube. Esto genera preocupación acerca de la privacidad y hace estos sistemas dependientes de estar conectados continuamente a Internet, que no es accesible para todos los usuarios. En esta tesis, se propone una alternativa competitiva económicamente a los sistemas actuales cumpliendo las premisas de privacidad, uso sin conexión e implementación con librerías de código abierto., [EN] Virtual Asssistant Systems should manage dialog systems where user intentions must be identified precisely. Nowadays, virtual assistants market is dominated by a few large companies that exchange the possibility of owning those systems for the data collected from the user, directly or indirectly. The systems offered in the market keep connected to the Internet in order to use technologies that help returning better responses to the user along with storing users data in the cloud. This generates concern about privacy and makes those systems Internet dependent, which is not always accesible for every user. In this dissertation, we are proposing a economically competitive approach to the current systems offered satisfying the premises of privacy, offline and open-source implementation., [CA] Els sistemes d’assistent virtual haurien de gestionar sistemes de diàleg en els quals s’han de reconèixer les intencions dels usuaris de manera precisa. Avui en dia, el mercat dels assistents virtuals està dominat per unes poques grans empreses. Aquestes intercanvien la possibilitat de posseir aquests sistemes a canvi de les dades obtingudes dels usuaris de manera directa o indirecta. Els sistemes que s’ofereixen en el mercat es mantenen connectats a la xarxa per a fer ús de tecnologies que permeten retornar respostes més elaborades, alhora que emmagatzemen informació de l’usuari en el núvol. Això genera preocupació sobre la privacitat i fa aquests sistemes dependents d’estar connectats contínuament a Internet, que no és accessible per a tots els usuaris. En aquesta tesi, es proposa una alternativa competitiva econòmicament als sistemes actuals complint les premisses de privacitat, ús sense connexió i implementació amb llibreries de codi obert.
- Published
- 2020
29. Desarrollo e implantación de un sistema de reconocimiento del habla para la elaboración de informes médicos
- Author
-
Sánchez Peiró, Joan Andreu, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació, Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica, Feng Ho, Alex, Sánchez Peiró, Joan Andreu, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació, Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica, and Feng Ho, Alex
- Abstract
[ES] Dentro de las tareas de los colaboradores de los hospitales o centros médicos, refiriéndose específicamente a los médicos de diagnóstico en laboratorios, la mayor parte del esfuerzo y tiempo recae en la redacción de informes médicos. Debido a ello, el número de pacientes que se pueden atender y el servicio que pueden ofrecer se ve reducido. En este trabajo se propone el diseño y desarrollode un sistema de reconocimiento automático del habla (RAH) utilizando CMU Sphinx4 y Kylm para la elaboración de informes médicos y su implantación en el servicio de medicina nuclear del hospital Dr. Peset en Valencia. El desarrollo y adaptación de sistemas de RAH a problemas muy concretos es posible graciasa los avances en las últimas décadas en este campo y a la disponibilidad de datos accesibles en formato abierto. Los experimentos iniciales se realizan con un modelo acústico pre-entrenado en español del proyecto VoxForge y un corpus de texto que contiene un vocabulario con más de 18 000 palabras referentes a informes médicos de medicina nuclear. Como resultado de la experimentación, se ha obtenido un valor WER promedio de 26,6 % sin adaptación al locutor y se ha logrado mejorar a un WER promedio de 23,1 % con adaptación MAP indicando una reducción del error en 13,2 %. La aplicación y código fuente se encuentran disponible enhttps://sourceforge.net/projects/asr-for-medical-reporting/bajo licencia GNU (GPLv3)., [EN] Among the tasks of collaborators in hospitals or medical centers, specifically referring to diagnostic doctors in laboratories, most of the effort and time falls on the writing of medical reports. Due to this, the number of patients that can be attended and the service they can offer is reduced. This work proposes the design and development of an automatic speech recognition (ASR) system using CMU Sphinx4 and Kylm for the preparation of medical reports and their implementation in the nuclear medicine service of the Dr. Peset hospital in Valencia. The development and adaptation of ASR systems to very specific problems is possible thanks to the advances in the last decades in this field and the availability of open data. Initial experiments are performed with a pre-trained acoustic model in Spanish from the VoxForge project and a corpus of text containing a vocabulary of more than 18 000 words referring to nuclear medicine medical reports. As a result of experimentation, an average WER value of 26,6% has been achieve without speaker adaptation and it has been possible to improve to an average WER of 23,1% with MAP adaptation indicating a reduction of error in 13,2% . The application and source code are available in https://sourceforge.net/projects/asr-for-medical-reporting/ under GNU (GPLv3) license., [CA] Dins de les tasques dels col·laboradors als hospitals i centres mèdics, referintse específicament als metges de diagnòstic en laboratori, la major part del esforç i del temps es dedicat a la redacció de informes mèdics. A conseqüència, el nombre de pacients que es poden atendre i el servei que es pot oferir es veu reduït. En aquest treball es proposa el disseny i desenvolupament d’un sistema de reconeixement automàtic de la parla (RAP) utilitzant CMU Sphinx4 i Kylm per a l’elaboració d’informes mèdics i la seua implantació en el servei de medicina nuclear de l’hospital Dr. Peset a València. El desenvolupament y adaptació de sistemes RAH a problemes molt concrets es possible gràcies als avanços en les últimes dècades en aquest camp i a la disponibilitat de dades accessibles de forma oberta. Els experiments inicials es realitzen amb un model acústic prèviament entrenat en espanyol del projecte VoxForge i un corpus de text que conté un vocabulari amb més de 18 000 paraules que fan referència a informes mèdics de medicina nuclear. Com a resultat de l’experimentació, s’ha obtingut un valor WER mitjà de 26,6% sense adaptació al locutor i s’- ha aconseguit millorar a un WER mitjà de 23,1% amb adaptació MAP indicant una reducció del error en 13,2%. L’aplicació i el codi font estan disponibles a https://sourceforge.net/projects/asr-for-medical-reporting/ baix llicència GNU (GPLv3).
- Published
- 2020
30. Development and evaluation of a Polish Automatic Speech Recognition system using the TLK toolkit
- Author
-
Sanchis Navarro, José Alberto, Civera Saiz, Jorge, Iranzo Sánchez, Javier, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació, Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica, Roselló Beneitez, Nahuel Unai, Sanchis Navarro, José Alberto, Civera Saiz, Jorge, Iranzo Sánchez, Javier, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació, Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica, and Roselló Beneitez, Nahuel Unai
- Abstract
[EN] Automatic speech recognition (ASR) is a branch of pattern recognition that has currently gained popularity due to technological and structural advances in this field. This work presents the process of making a Polish automatic speech recognition system based on current state-of-the-art techniques. To this end, the TLK toolkit is used, as well as other relevant tools. The datasets used to train the final models are examined and described. Moreover, the process of creating the models from scratch is described. To conclude, the performance of the final system is compared with respect to several systems evaluated in the context of the PolEval 2019 challenge., [ES] El reconocimiento automático del habla (ASR por sus siglas en inglés) es una rama del reconocimiento de patrones que ha ganado una gran popularidad en los últimos años gracias a los avances tecnológicos y estructurales en este campo. Este trabajo presenta el proceso de creación de un sistema de reconocimiento automático del habla polaca basado en técnicas actualmente estado de la técnica. Con este fin, se hace uso de la herramienta TLK, además de otras herramientas relevantes. También se examinan y describen los conjuntos de datos usados para entrenar los modelos finales, además de describirse el proceso de creación de estos últimos partiendo desde el principio. Finalmente, el sistema desarrollado se compara con otros sistemas evaluados en el contexto de la competición de PolEval 2019., [CA] El reconeixement automàtic de la parla (ASR per les seues sigles en anglés) és una branca del reconeixement de patrons que ha guanyat popularitat gràcies als avanços tecnològics i estructurals en aquest camp. Aquest treball presenta el procés de creació d’un sistema automàtic reconeixedor de la parla polonesa basat en tècniques actualment estat de la tècnica. Amb aquesta finalitat, s’utilitza l’eina TLK, a més d’altres eines rellevants. D’altra banda, s’examinen i es descriuen els conjunts de dades usats per a entrenar els models finals. A més, el procés de creació dels models es descriu partint des del principi. Finalment, el sistema desenvolupat es compara amb altres sistemes avaluats en el context de la competició de PolEval 2019.
- Published
- 2020
31. Traducció automàtica de la parla : creació i avaluació de sis motors de TAE
- Author
-
Sánchez Gijón, María Pilar, Jiménez Molina, Noelia, Universitat Autònoma de Barcelona. Facultat de Traducció i d'Interpretació, Sánchez Gijón, María Pilar, Jiménez Molina, Noelia, and Universitat Autònoma de Barcelona. Facultat de Traducció i d'Interpretació
- Abstract
La traducció automàtica (TA) ha millorat notablement aquests darrers anys. No obstant això, la traducció de la parla i el processament del llenguatge natural encara són un desafiament per als sistemes de TA. Aquest treball sorgeix amb la motivació d'aportar una possible solució a la manca de naturalitat de la traducció automàtica per veu. La hipòtesi és que es pot millorar l'oralitat de les traduccions mitjançant corpus orals transcrits i optimitzacions en l'entrenament dels sistemes de TA. Per demostrar aquesta hipòtesi, es creen amb KantanMT (després d'haver provat amb MTradumàtica) sis motors de traducció automàtica estadística entrenats amb diferents corpus orals transcrits i escrits per després, evaluar-los., La traducción automática (TA) ha mejorado notablemente en los últimos años; sin embargo, la traducción del habla y el procesamiento del lenguaje natural siguen siendo todo un reto para los sistemas de TA. Este trabajo surge con la motivación de aportar una posible solución a la falta de naturalidad en la traducción automática del habla. Se parte de la hipótesis de que se puede mejorar la oralidad de las traducciones introduciendo corpus orales transcritos y optimizaciones en el entrenamiento de los sistemas de TA. Para probar esta hipótesis, se crean con KantanMT -tras probar MTradumàtica- seis motores de traducción automática estadística entrenados con distintos corpus orales transcritos y escritos y, después, se evalúan., Machine Translation (MT) has been greatly improved in recent years. Nevertheless, Spoken Language Translation (SLT) and natural language processing remain a major challenge for MT engines. The purpose of this work is to provide a possible solution to the lack of naturalness in SLT. The work is based on the hypothesis that it is possible to improve the orality of translations by introducing transcribed oral corpus and optimizations in the training process of MT systems. To test this hypothesis, six statistical machine translation engines, trained with different transcribed oral and written corpora, were created with KantanMT, after trying MTradumàtica, and then evaluated.
- Published
- 2020
32. Combinació de les eines de reconeixement de veu i de TAO : Anàlisi d'errors i de productivitat
- Author
-
Sánchez Gijón, María Pilar, Rendón Gentil, María del Mar, Universitat Autònoma de Barcelona. Facultat de Traducció i d'Interpretació, Sánchez Gijón, María Pilar, Rendón Gentil, María del Mar, and Universitat Autònoma de Barcelona. Facultat de Traducció i d'Interpretació
- Abstract
Els sistemes de reconeixement de veu han experimentat un augment durant els darrers anys gracies als avenços que s'han dut a terme en l'àmbit de la Intel·ligència Artificial. Tanmateix, la seva aplicació no gaudeix de gaire popularitat en el context de la pràctica de la traducció per diversos factors, entre els quals es troba la manca de precisió. Els objectius principals d'aquest treball se centren en la descripció de la integració dels sistemes de reconeixement automàtic de la parla (RAP) amb eines de traducció assistida per ordinador (TAO), en la valoració dels errors que es produeixin i en l'avaluació de la productivitat. Per dur-ho a terme, es treballarà amb els sistemes de RAP de Windows, Mac i memoQ, així com amb les eines de TAO: OmegaT, Memsource i memoQ. El pla de treball consistirà en la traducció d'un mateix text utilitzant les eines de TAO mitjançant el teclat i els sistemes de RAP esmentats. Amb els resultats, es farà una comparació del temps invertit en la traducció de cada segment i els possibles errors que hagin sorgit durant el procés., Los sistemas de reconocimiento de voz han experimentado un auge en los últimos años gracias a los avances que se están llevando a cabo en el ámbito de la Inteligencia Artificial. Sin embargo, su aplicación no goza de mucha popularidad en el contexto de la práctica de la traducción por diversos factores, entre los que se encuentra la falta de precisión. Los principales objetivos de este trabajo se centran en la descripción de la integración de los sistemas de reconocimiento automático del habla (RAH) con herramientas de traducción asistida (TAO), en la valoración de los errores que se produzcan y en la evaluación de la productividad. Para ello, se trabaja con los sistemas de RAH de Windows, Mac y memoQ, junto con las herramientas de TAO OmegaT, Memsource y memoQ. El plan de trabajo consiste en la traducción de un mismo texto utilizando las herramientas de TAO por medio del teclado y por medio de los sistemas de RAH mencionados para hacer una comparación del tiempo empleado en la traducción de cada segmento y los posibles errores que surjan durante el proceso., Nowadays, automatic speech recognition systems (ASR) have experienced an important growth thanks to the advances in the field of Artificial Intelligence. However, they are not very popular in the context of translation practice due to several factors, including the lack of accuracy. The main objectives of this work are focused on the description of the integration of the ASR systems with computer aided translation tools (CAT), and on the evaluation of the errors produced in the translation process and productivity. To this end, we will use Windows, Mac and memoQ ASR systems along with OmegaT, Memsource and memoQ. The work plan will include the translation of the same text by using CAT tools with the keyboard and the ASR systems mentioned above to make a comparison of the time spent in the translation of each segment and the possible errors that may arise in the process.
- Published
- 2020
33. Sistema de diálogo hablado basado en VoiceXML para la enseñanza universitaria.
- Author
-
López-Cózar, Ramón, Ábalos, Nieves, López, Antonio, Capel, Manuel, and Quesada, José F.
- Subjects
AUTOMATIC speech recognition ,COLLEGE students ,NATURAL language processing ,COMMUNICATION & technology ,LEARNING - Abstract
Copyright of Informática Educativa Comunicaciones is the property of Asociacion para el Desarrollo de la Informatica Educativa and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2013
34. DISEÑO Y MANIPULACIÓN DE MODELOS OCULTOS DE MARKOV, UTILIZANDO HERRAMIENTAS HTK. UNA TUTORÍA.
- Author
-
Carrillo Aguilar, Roberto
- Subjects
- *
AUTOMATIC speech recognition , *COMPUTER input-output equipment , *HIDDEN Markov models , *COMPUTER software development , *INFORMATION processing - Abstract
This paper presents HTK, a software development platform for the design and management of Hidden Markov Models. Nowadays, the Hidden Markov Models technique is the more effective one to implement voice recognition systems. HTK is mainly oriented to this application. Its architecture is robust and self-sufficient. It allows a natural input from a microphone, it has modules for A/D conversion, it allows pre-processing and parameterization of information, it possesses tools to define and manage the Hidden Markov Models, libraries for training and use the already defined Hidden Markov Models. It has functions to define the grammar and it has additional tools to reach the final objective: to obtain an hypothetical transcription of the talking (voice to text translation). [ABSTRACT FROM AUTHOR]
- Published
- 2007
35. Reconocimiento automático del habla con redes neuronales artificiales.
- Author
-
Milone, Diego H.
- Abstract
Copyright of Ciencia, Docencia y Technologia is the property of Universidad Nacional de Entre Rios and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2005
36. Combinació de les eines de reconeixement de veu i de TAO : Anàlisi d'errors i de productivitat
- Author
-
Rendón Gentil, María del Mar, Universitat Autònoma de Barcelona. Facultat de Traducció i d'Interpretació, and Sánchez Gijón, María Pilar
- Subjects
Eines de traducció assistida per ordinador ,Memsource ,Memoq ,Computer aided translation tools ,Herramienta de traducción asistida por ordenador ,Automatic speech recognition ,Reconeixement automàtic de la parla ,OmegaT ,Reconocimiento automático del habla - Abstract
Els sistemes de reconeixement de veu han experimentat un augment durant els darrers anys gracies als avenços que s'han dut a terme en l'àmbit de la Intel·ligència Artificial. Tanmateix, la seva aplicació no gaudeix de gaire popularitat en el context de la pràctica de la traducció per diversos factors, entre els quals es troba la manca de precisió. Els objectius principals d'aquest treball se centren en la descripció de la integració dels sistemes de reconeixement automàtic de la parla (RAP) amb eines de traducció assistida per ordinador (TAO), en la valoració dels errors que es produeixin i en l'avaluació de la productivitat. Per dur-ho a terme, es treballarà amb els sistemes de RAP de Windows, Mac i memoQ, així com amb les eines de TAO: OmegaT, Memsource i memoQ. El pla de treball consistirà en la traducció d'un mateix text utilitzant les eines de TAO mitjançant el teclat i els sistemes de RAP esmentats. Amb els resultats, es farà una comparació del temps invertit en la traducció de cada segment i els possibles errors que hagin sorgit durant el procés. Los sistemas de reconocimiento de voz han experimentado un auge en los últimos años gracias a los avances que se están llevando a cabo en el ámbito de la Inteligencia Artificial. Sin embargo, su aplicación no goza de mucha popularidad en el contexto de la práctica de la traducción por diversos factores, entre los que se encuentra la falta de precisión. Los principales objetivos de este trabajo se centran en la descripción de la integración de los sistemas de reconocimiento automático del habla (RAH) con herramientas de traducción asistida (TAO), en la valoración de los errores que se produzcan y en la evaluación de la productividad. Para ello, se trabaja con los sistemas de RAH de Windows, Mac y memoQ, junto con las herramientas de TAO OmegaT, Memsource y memoQ. El plan de trabajo consiste en la traducción de un mismo texto utilizando las herramientas de TAO por medio del teclado y por medio de los sistemas de RAH mencionados para hacer una comparación del tiempo empleado en la traducción de cada segmento y los posibles errores que surjan durante el proceso. Nowadays, automatic speech recognition systems (ASR) have experienced an important growth thanks to the advances in the field of Artificial Intelligence. However, they are not very popular in the context of translation practice due to several factors, including the lack of accuracy. The main objectives of this work are focused on the description of the integration of the ASR systems with computer aided translation tools (CAT), and on the evaluation of the errors produced in the translation process and productivity. To this end, we will use Windows, Mac and memoQ ASR systems along with OmegaT, Memsource and memoQ. The work plan will include the translation of the same text by using CAT tools with the keyboard and the ASR systems mentioned above to make a comparison of the time spent in the translation of each segment and the possible errors that may arise in the process.
- Published
- 2020
37. Traducció automàtica de la parla : creació i avaluació de sis motors de TAE
- Author
-
Jiménez Molina, Noelia, Universitat Autònoma de Barcelona. Facultat de Traducció i d'Interpretació, and Sánchez Gijón, María Pilar
- Subjects
KantanMT ,Statistical machine translation ,Automatic speech recognition ,Reconeixement automàtic de la parla ,Traducció automàtica estadística ,Traducció automàtica de la parla ,Reconocimiento automático del habla ,Spoken language translation ,Traducción automática estadística ,MTradumàtica ,Traducción automática del habla - Abstract
La traducció automàtica (TA) ha millorat notablement aquests darrers anys. No obstant això, la traducció de la parla i el processament del llenguatge natural encara són un desafiament per als sistemes de TA. Aquest treball sorgeix amb la motivació d'aportar una possible solució a la manca de naturalitat de la traducció automàtica per veu. La hipòtesi és que es pot millorar l'oralitat de les traduccions mitjançant corpus orals transcrits i optimitzacions en l'entrenament dels sistemes de TA. Per demostrar aquesta hipòtesi, es creen amb KantanMT (després d'haver provat amb MTradumàtica) sis motors de traducció automàtica estadística entrenats amb diferents corpus orals transcrits i escrits per després, evaluar-los. La traducción automática (TA) ha mejorado notablemente en los últimos años; sin embargo, la traducción del habla y el procesamiento del lenguaje natural siguen siendo todo un reto para los sistemas de TA. Este trabajo surge con la motivación de aportar una posible solución a la falta de naturalidad en la traducción automática del habla. Se parte de la hipótesis de que se puede mejorar la oralidad de las traducciones introduciendo corpus orales transcritos y optimizaciones en el entrenamiento de los sistemas de TA. Para probar esta hipótesis, se crean con KantanMT -tras probar MTradumàtica- seis motores de traducción automática estadística entrenados con distintos corpus orales transcritos y escritos y, después, se evalúan. Machine Translation (MT) has been greatly improved in recent years. Nevertheless, Spoken Language Translation (SLT) and natural language processing remain a major challenge for MT engines. The purpose of this work is to provide a possible solution to the lack of naturalness in SLT. The work is based on the hypothesis that it is possible to improve the orality of translations by introducing transcribed oral corpus and optimizations in the training process of MT systems. To test this hypothesis, six statistical machine translation engines, trained with different transcribed oral and written corpora, were created with KantanMT, after trying MTradumàtica, and then evaluated.
- Published
- 2020
38. Asistente Virtual offline de código abierto con síntesis del habla y audio distribuido
- Author
-
López Fernández, Jacobo
- Subjects
Reconeixement de Formes i Imatge Digital [Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial] ,Síntesis de habla ,Audio distribuido ,Assistent ,Codi obert ,Reconeixement automàtic de la parla ,Assistant ,Código abierto ,Asistente ,Àudio distribuït ,Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial: Reconeixement de Formes i Imatge Digital ,Privacitat ,Reconocimiento automático del habla ,Seguridad ,Fuera de línea ,Offline ,Distributed audio ,Automatic speech recognition ,Open source ,Síntesi de parla ,Speech synthesis ,Fora de línia ,Seguretat ,Privacy ,Privacidad ,Security ,LENGUAJES Y SISTEMAS INFORMATICOS - Abstract
[ES] Los sistemas de asistente virtual deberían gestionar sistemas de diálogo en los que se deben reconocer las intenciones de los usuarios de forma precisa. Hoy en día, el mercado de los asistentes virtuales está dominado por unas pocas grandes empresas. Éstas intercambian la posibilidad de poseer dichos sistemas a cambio de los datos obtenidos de los usuarios de forma directa o indirecta. Los sistemas que se ofrecen en el mercado se mantienen conectados a la red para hacer uso de tecnologías que permitan devolver respuestas más elaboradas, a la vez que almacenan información del usuario en la nube. Esto genera preocupación acerca de la privacidad y hace estos sistemas dependientes de estar conectados continuamente a Internet, que no es accesible para todos los usuarios. En esta tesis, se propone una alternativa competitiva económicamente a los sistemas actuales cumpliendo las premisas de privacidad, uso sin conexión e implementación con librerías de código abierto., [EN] Virtual Asssistant Systems should manage dialog systems where user intentions must be identified precisely. Nowadays, virtual assistants market is dominated by a few large companies that exchange the possibility of owning those systems for the data collected from the user, directly or indirectly. The systems offered in the market keep connected to the Internet in order to use technologies that help returning better responses to the user along with storing users data in the cloud. This generates concern about privacy and makes those systems Internet dependent, which is not always accesible for every user. In this dissertation, we are proposing a economically competitive approach to the current systems offered satisfying the premises of privacy, offline and open-source implementation., [CA] Els sistemes d’assistent virtual haurien de gestionar sistemes de diàleg en els quals s’han de reconèixer les intencions dels usuaris de manera precisa. Avui en dia, el mercat dels assistents virtuals està dominat per unes poques grans empreses. Aquestes intercanvien la possibilitat de posseir aquests sistemes a canvi de les dades obtingudes dels usuaris de manera directa o indirecta. Els sistemes que s’ofereixen en el mercat es mantenen connectats a la xarxa per a fer ús de tecnologies que permeten retornar respostes més elaborades, alhora que emmagatzemen informació de l’usuari en el núvol. Això genera preocupació sobre la privacitat i fa aquests sistemes dependents d’estar connectats contínuament a Internet, que no és accessible per a tots els usuaris. En aquesta tesi, es proposa una alternativa competitiva econòmicament als sistemes actuals complint les premisses de privacitat, ús sense connexió i implementació amb llibreries de codi obert.
- Published
- 2020
39. Estudio comparativo de métodos de transcripción para corpus orales [Recurso electrónico] : el caso del español = Comparative study of transcription methods for spoken corpus : the case of Spanish
- Author
-
Rufino Morales, Marimar.
- Subjects
Speech-to-text software ,Transliteración ,Rehablado ,Español como lengua extranjera ,Programa de dictado ,Automatic speech recognition ,Respeaking ,Spoken corpus ,Transcripción ,Reconocimiento automático del habla ,Transcription ,Corpus oral - Abstract
Referencias bibliográficas: p. 142-146. Los avances tecnológicos han propulsado la metodología de investigación en transcripción. Los programas para corpus lingüísticos basados en modelos estadísticos y de aprendizaje profundo han mejorado las fases de alineación y anotación. En cambio, cuando se trata de transcribir el material, la carga interpretativa y la propia naturaleza de las conversaciones obstaculizan la automatización del proceso. De esta manera, la transcripción de entrevistas destinadas al estudio de la lengua oral se sigue haciendo con un reproductor y un teclado, y puede convertirse en uno de los aspectos más largos del procesamiento de datos. Sin embargo, en otros contextos profesionales, el reconocimiento automático del habla se emplea para transcribir de forma eficaz gracias a la colaboración humano-computadora. Las técnicas y estrategias difieren, pero todas tienen en común que estabilizan las fluctuaciones de las herramientas informáticas y son más rápidas que otros métodos. En este estudio se ha utilizado una de ellas, el rehablado off-line con las entrevistas del Corpus oral de la lengua española en Montreal. Se ha medido el tiempo empleado, así como la precisión y se ha comparado con el reconocimiento automático del habla y con la mecanografía. El rehablado off-line ha permitido el uso de un programa automático de dictado en su estado actual como herramienta para potenciar la transcripción de entrevistas en menos tiempo y con menos errores. Abstract: Technological advances have propelled the research methodology in transcription. Language corpus tools based on statistical models and deep learning have improved the alignment and annotation phases. However, when it comes to transcribing the material, the conversations interpretive load and nature themselves hinder automation of the process. That is why interviews used for studying spoken language are still transcribed with a player and keyboard, which can constitute one of the most time-consuming aspects of data processing. In other professional contexts, automatic speech recognition is used to transcribe effectively through human-computer collaboration. The techniques and strategies may differ, but they all stabilize fluctuations in computing tools and are faster than other methods. In this study, the off-line respeaking method was used to transcribe the interviews of the Spoken Corpus of the Spanish Language in Montreal. Transcription times and accuracy were measured and compared with automatic speech recognition and typing. Off-line respeaking, using automatic speech-to-text software in its current state, proved to be the fastest and most error-free method for transcribing interviews. Disponible en formato .pdf Sitio web de la revista (Consulta: 28-01-2020)
- Published
- 2020
- Full Text
- View/download PDF
40. Adaptación y evaluación de modelos de diarización de locutores para recursos educativos abiertos
- Author
-
Juan Císcar, Alfonso, Sanchis Navarro, José Alberto, Giménez Pastor, Adrián, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació, Ciscar Martinez, Vicent Andreu, Juan Císcar, Alfonso, Sanchis Navarro, José Alberto, Giménez Pastor, Adrián, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació, and Ciscar Martinez, Vicent Andreu
- Abstract
La Educación Abierta se ha convertido en una aproximación revolucionaria para el futuro de la educación permitiendo el acceso mundial a un gran volumen de Recursos Educativos Abiertos (REA). Un ejemplo emblemático de REA son los cursos "OpenCourseWare" (OCW) producidos por universidades y publicados gratuitamente en Internet. Aunque los cursos OCW han tenido un gran impacto en la Educación Abierta, los llamados cursos online masivos y abiertos (MOOCs) están aumentando todavía más este impacto. A diferencia de los cursos OCW, los MOOCs ofrecen los contenidos de manera más estructurada, habilitan foros de discusión y ofrecen certificados académicos. En España, muchas instituciones relacionadas con la Educación han incrementado su producción de REA y comparten, o incluso han fundado, iniciativas relacionadas con los MOOCs como es el caso de Miríada X, UNED COMA, UniMOOC y UPV[X]. El rápido crecimiento de los REA y MOOCs no ha pasado desapercibido a gobiernos y organizaciones internacionales relacionadas con la Educación como lo demuestra la Declaración de París sobre REA de 2012 adoptada en el World OER Congress celebrado en la UNESCO. La Declaración mostró la importancia de los REA para el acceso universal a la Educación y enumeró 10 recomendaciones a los estados relacionados con la colaboración internacional y la accesibilidad. Siguiendo la Declaración de París, la Comisión Europea lanzó la agenda "Opening up Education" en Septiembre de 2013 con el fin de estimular la alta calidad y la innovación en el aprendizaje y la enseñanza mediante nuevas tecnologías y contenidos digitales. En ella se reconoce una falta de contenidos educativos de calidad en múltiples lenguas. Aunque existe una clara necesidad de servicios multilingües en la Educación Abierta, los proveedores de REA y, particularmente los MOOCs, no ofrecen comunicación multilingüe y muy ocasionalmente contenidos multilingües. Basado en la evidencia anterior, el TFM propuesto pretende contribuir al fomento de la
- Published
- 2019
41. Towards Machine Speech-to-speech Translation
- Author
-
Nakamura, Satoshi, Sudoh, Katsuhito, and Sakti, Sakriani
- Subjects
Text-to-speech synthesis ,Traducció automàtica de textos ,Conversió de text a veu ,Conversión de texto a voz ,Automatic speech recognition ,Reconeixement automàtic de la parla ,Reconocimiento automático del habla ,Traducción automática de textos ,Traducció automàtica de la parla ,Speech-to-speech translation ,Machine text-to-text translation ,Traducción automática del habla - Abstract
There has been a good deal of research on machine speech-to-speech translation (S2ST) in Japan, and this article presents these and our own recent research on automatic simultaneous speech translation. The S2ST system is basically composed of three modules: large vocabulary continuous automatic speech recognition (ASR), machine text-to-text translation (MT) and text-to-speech synthesis (TTS). All these modules need to be multilingual in nature and thus require multilingual speech and corpora for training models. S2ST performance is drastically improved by deep learning and large training corpora, but many issues still still remain such as simultaneity, paralinguistics, context and situation dependency, intention and cultural dependency. This article presents current on-going research and discusses issues with a view to next-generation speech-to-speech translation. En Japón se han llevado a cabo muchas actividades de investigación acerca de la traducción automática del habla. Este artículo pretende ofrecer una visión general de dichas actividades y presentar las que se han realizado más recientemente. El sistema S2ST está formado básicamente por tres módulos: el reconocimiento automático del habla continua y de amplios vocabularios (Automatic Speech Recognition, ASR), la traducción automática de textos (Machine translation, MT) y la conversión de texto a voz (Text-to-Speech Synthesis, TTS). Todos los módulos deben ser plurilingües, por lo cual se requieren discursos y corpus multilingües para los modelos de formación. El rendimiento del sistema S2ST mejora considerablemente por medio de un aprendizaje profundo y grandes corpus formativos. Sin embargo, todavía hace falta tratar diversos aspectos, com la simultaneidad, la paralingüística, la dependencia del contexto y de la situación, la intención y la dependencia cultural. Por todo ello, repasaremos las actividades de investigación actuales y discutiremos varias cuestiones relacionadas con la traducción automática del habla de última generación. Al Japó s'han dut a terme moltes activitats de recerca sobre la traducció automàtica de la parla. Aquest article n'ofereix una visió general i presenta les activitats que s'han efectuat més recentment. El sistema S2ST es compon bàsicament de tres mòduls: el reconeixement automàtic de la parla contínua i de vocabularis extensos (Automatic Speech Recognition, ASR), la traducció automàtica de textos (Machine translation, MT) i la conversió de text a veu (Text-to-Speech Synthesis, TTS). Tots els mòduls han de ser plurilingües, per la qual cosa es requereixen discursos i corpus multilingües per als models de formació. El rendiment del sistema S2ST millora considerablement per mitjà d'un aprenentatge profund i de grans corpus formatius. Tanmateix, encara cal tractar diversos aspectes, com la simultaneïtat, la paralingüística, la dependència del context i de la situació, la intenció i la dependència cultural. Així, farem un repàs a les activitats de recerca actuals i discutirem diverses qüestions relacionades amb la traducció automàtica de la parla d'última generació.
- Published
- 2019
42. Capturador de audio para extracción de subtitulado en línea como herramienta de apoyo para personas de tercera edad y aquellas que presentan discapacidad auditiva
- Author
-
Yambay Aulla, Inés Patricia and Ingavélez Guerra, Paola Cristina
- Subjects
CMU SPHINX (PROGRAMA PARA COMPUTADOR) ,SISTEMAS DE PROCESAMIENTO DE LA VOZ ,DICCIONARIO FONÉTICO ,RECONOCIMIENTO AUTOMÁTICO DEL HABLA ,PROCESOS DE MARKOV ,TECNOLOGÍAS DE LA INFORMACIÓN Y LA COMUNICACIÓN - Abstract
El sistema de subtitulado automático offline desarrollado es una aplicación de escritorio que mediante un sistema de reconocimiento de voz analiza las frecuencias de audio, las compara con los modelos que representan el idioma español, finalmente el texto obtenido se presenta en pantalla, apoyando así el área de discapacidad auditiva y adulto mayor. The offline automatic subtitling system developed is a desktop application that uses a voice recognition system to analyze the audio frequencies, compare them with the models that represent the Spanish language, finally the text obtained is presented on the screen, thus supporting the area of hearing disability and older adult.
- Published
- 2018
43. Reconocimiento de voz codificada sobre redes IP
- Author
-
Carmona Maqueda, José Luis, Peinado Herreros, Antonio Miguel, Pérez Córdoba, José Luis, and Universidad de Granada. Departamento de Teoría de la Señal, Telemática y Comunicaciones
- Subjects
Sistemas de procesamiento de la voz ,Redes ,Reconocimiento automático del habla ,Voz - Abstract
Incluye Resumen y Conclusiones en inglés, Tesis Univ. Granada. Departamento de Teoría de la Señal, Telemática y Comunicaciones. Leída el 15 de junio de 2009
- Published
- 2018
44. Técnicas de reconocimiento robusto de la voz basadas en el pitch
- Author
-
Morales Cordovilla, Juan Andrés, Peinado Herrera, Antonio Miguel, Sánchez Calle, Victoria, Universidad de Granada. Departamento de Teoría de la Señal Telemática y Comunicaciones, and Sánchez Calle, Victoria Eugenia
- Subjects
Sistemas de procesamiento de la voz ,681.3 ,Reconocimiento automático del habla ,621.39 - Abstract
Tesis Univ. Granada. Departamento de Teoría de la Señal Telemática y Comunicaciones. Leída el 5 de septiembre de 2011
- Published
- 2018
45. Implementation of a spoken language system
- Author
-
Perez Guijarro, Jessica, Universitat Oberta de Catalunya, Ventura Royo, Carles, and Isern Alarcón, David
- Subjects
reconeixement automàtic de la parla ,Inteligencia artificial -- TFG ,reconocimiento automático del habla ,Intel·ligència artificial -- TFG ,Artificial intelligence -- TFG ,xarxes neuronals recurrents ,comprensió de la llengua oral ,automatic speech recognition ,recurrent neural network ,spoken language understanding ,redes neuronales recurrentes - Abstract
This project consists of a implementation of a Spoken Language System that is part of the dialogue systems like Siri. The system is constituted by two independent blocks: Automatic Speech Recognition, in charge of identifying who is verbalizing the user and transforming a text, and the Spoken Language System, in charge of reading the text, identifying the significant parts of said text. Each of the compo- nents has been trained with different techniques and datasets since it does not share a common goal. In particular, for the development of the ASR module we have worked with a previously selected subset of the VoxForge English dataset, whose data has been trained using Hidden Markov Models for gener- ate the Acoustic Model. On the other hand, for the development of the SLU module we have worked with Recurrent Neural Networks and a variant of the ATIS dataset previously trained with the Word Embedding method. Although the precision obtained in all the components is more than acceptable, the performance of the integration of both components results unstable. Este proyecto consiste en la implementación de un sistema de lenguaje que forma parte de los sistemas de diálogo como Siri. El sistema está constituido por dos bloques independientes: Automatic Speech Recognition, encargado de identificar aquello que está verbalizando el usuario y transformalo a texto, y el Spoken Language System, encargado de dotar comprensión al texto, identificando las partes significativas de dicho texto. Cada uno de los componentes se ha entrenado con técnicas y datasets distintos ya que, no comparten un objetivo común. En concreto, para el desarrollo del módulo ASR se ha trabajado con un subset previamente seleccionado del dataset VoxForge English, cuyos datos han sido entrenados mediante Hidden Markov Models. Por otro lado, para el desarrollo del módulo SLU se ha trabajado con Redes Neuronales Recurrentes y un variante del dataset ATIS previamente entrenado con el método Word Embedding. Pese a que la precisión obtenida en los cada uno de los es más que aceptable, el funcionamiento de la integración de ambos resulta inestable. Aquest projecte consisteix en la implementació d'un sistema de llenguatge que forma part dels sistemes de diàleg com Siri. El sistema està constituït per dos blocs independents: Automatic Speech Recognition, encarregat d'identificar allò que està verbalizando l'usuari i transformalo a text, i el Spoken Language System, encarregat de dotar comprensió al text, identificant les parts significatives d'aquest text. Cadascun dels components s'ha entrenat amb tècniques i datasets diferents ja que, no comparteixen un objectiu comú. En concret, per al desenvolupament del mòdul ASR s'ha treballat amb un subset prèviament seleccionat del dataset VoxForge English, les dades del qual han estat entrenats mitjançant Hidden Markov Models. D'altra banda, per al desenvolupament del mòdul SLU s'ha treballat amb Xarxes Neuronals Recurrents i un variant del dataset ATIS prèviament entrenat amb el mètode Word Embedding. Malgrat que la precisió obtinguda en els cadascun dels és més que acceptable, el funcionament de la integració de tots dos resulta inestable.
- Published
- 2018
46. Japañol, a Computer Assisted Pronunciation Tool for Japanese Students of Spanish Based on Minimal Pairs
- Author
-
Kimura, T. and Kimura, T.
- Abstract
Producción Científica, There are many software tools that rely on speech technologies for providing to users L2 pronunciation training in the field of Computer Assisted Pronunciation Training (CAPT) [1]. Currently the most popular mobile and desktop operating systems grant users a free access to several Text-To-Speech (TTS) and Automatic Speech Recognition (ASR) systems. The combination of adequate teaching methods and gamification strategies are expected to increase user engagement, provide an adequate feedback and, at the same time, keep users active and comfortable. This study describes the "Japañol" mobile application, a specific and controlled version of TipTopTalk! , a serious game for anywhere anytime self-learning, especially designed for Japanese learners of Spanish as a foreign language, that allows users to train and to test their pronunciation skills using their own Android mobile phones or Windows PCs., Ministerio de Economía, Industria y Competitividad, FEDER (Project TIN2014- 59852-R)
- Published
- 2018
47. Desarrollo de un sistema de Reconocimiento Automático del Habla en Rumano para el subtitulado de vídeos educativos
- Author
-
Juan Císcar, Alfonso, Sanchis Navarro, José Alberto, Silvestre Cerdà, Joan Albert, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació, Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica, Colompar, Beniamin Cristian, Juan Císcar, Alfonso, Sanchis Navarro, José Alberto, Silvestre Cerdà, Joan Albert, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació, Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica, and Colompar, Beniamin Cristian
- Abstract
[ES] El reconocimiento automático del habla (ASR, del inglés “Automatic Speech Recognition”) es una de las áreas más activas dentro de la inteligencia artificial y el aprendizaje automático. En esta área viene trabajando activamente el grupo de investigación "Machine Learning and Language Processing"(MLLP) del DSIC, principalmente a través de los proyectos europeos FP7 transLectures (2011-2014) y EMMA (2014-2016), el proyecto MINECO MORE (2016-2018), así como el proyecto europeo H2020 X5gon, el cual se encuentra en su primer año de ejecución (2017-2020). El trabajo desarrollado en estos proyectos ha dado lugar a sistemas avanzados de ASR en diversas lenguas, los cuales están siendo utilizados en el subtitulado automático de vídeos educativos del repositorio oficial de la UPV, “media UPV”, así como de repositorios de otras instituciones académicas como, por ejemplo, la Universidad Carlos III de Madrid, la Universidad de Lisboa y el Instituto Hasso Plattner alemán. Si bien el grupo MLLP ha desarrollado sistemas avanzados de ASR en diversas lenguas de la Unión Europea, tanto mayoritarias como minoritarias, hasta el momento no dispone de un sistema de ASR en Rumano que pudiera aplicarse a “media UP” u otros repositorios educativos. Una de las razones por las cuales no se dispone de dicho sistema es la falta de recursos lingüísticos en Rumano. Ahora bien, recientemente ha sido posible acceder a algunas fuentes de recursos lingüísticos en Rumano, por lo que que ya es posible construir un sistema de ASR en Rumano aceptablemente preciso. El trabajo que se propone, consiste en construir un sistema de ASR en Rumano tan preciso como sea posible, siempre dentro de las condiciones del TFG. Durante el TFG, se han realizado algunos trabajos experimentales que han conducido a la construcción y la evaluación del sistema ASR en Rumano objetivo del TFG., [CA] El reconeixement automàtic de la parla(ASR, del anglès “Automatic Speech Recognition”) es una de de les àrees més actives dins de la inteligència artificial i el aprenentatge automàtic. En aquesta àrea ve treballant activament el grup de investigació “Machine Learning and Language Processing” (MLLP) del DSIC, principalment a través dels projectes europeus FP7 transLectures (2011-2014) y EMMA (2014-2016), el projecte MINECO MORE(2016-2018), així com el projecte europeu H2020 X5gon, que es troba en el seu primer any de execució (2017-2020). El treball desenvolupat en aquests projectes ha donat lloc a sistemes avançats d’ASR en diverses llengües, els quals estàn siguent utilitzats en el subtitulat automàtic de vídeos educatius del repositòri oficial de la UPV, “media UPV”, així com de repositoris de altres institucions acadèmiques com, per exèmple, la Universitat Carlos III de Madrid, la Universitat de Lisboa y el Institut Hasso Plattner alemany. Si bé el grup MLLP ha desenvolupat sistemes avançats d’ASR en divèrses llengües de la Unió Europea, tant majoritàries com minoritàries, fins el moment no disposa d’un sistema d’ASR en Romanés que puguera aplicarse a “media UPV” o altres repositòris educatius. Una de les raons per les quals no disposa d’un sistema semblant és la falta de recursos llingüístics en Romanés. Ara bé, recentment ha sigut possible accedir a algunes fonts de recursos llingüístics en Romanés, per lo que que ja és possible construir un sistema d’ASR en Romanés acceptablement precís. El treball que es proposa consisteix en construir un sistema d’ASR en Romanés tan precís com siga possible, sempre dintre de les condicions del TFG. Durant el TFG, s’ha portat a terme alguns treballs experimentals que han conduït a la construcció y evaluació del sistema ASR en Romanés objectiu del TFG., [EN] Automatic Speech Recognition, or ASR, is one of the most active areas in artifficial intelligence and machine learning. The investigation group “Machine Learning and Language Processing” (MLLP) from DSIC deparment is actively mainly working in this area through the european projects FP7 transLectures (2011-2014) and EMMA (2014-2016), the MINECO MORE project (2016-2018), and the european project H2020 X5gon, which is in it’s first year of execution (2017-2020). The work developed in this projects led to advanced ASR systems in different languages, which are used to subtitle educational videos automatically from the official repository of the UPV, “media UPV”, and also other repositorys from other institutions such as “Universidad Carlos III” from Madrid, Lisbon University and the german Institute Hasso Plattner. Althought MLLP group has developed advanced ASR systems for different majority and minority languages from the European Union, it does not have any ASR system for Romanian language that can be used for “media UPV” or other educational repositorys. One of the reasons why this system is not available is because of the lack of Romanian linguistic resources. However, recently it was possible to access a few Romanian linguistic resources, so it is already possible to build an Romanian ASR system that is accurate enough. The proposed project consists in building a Romanian ASR system as accurate as possible inside the terms of the TFG. During the TFG, many experimental tasks have been done that led to the building and evaluating the objective of the TFG which is the Romanian ASR system
- Published
- 2018
48. Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla
- Author
-
Universidade de Santiago de Compostela. Instituto da Lingua Galega (ILG), Piñeiro Martín, Andrés, García-Mateo, Carmen, Docío Fernández, Laura, Regueira, Xosé Luís, Universidade de Santiago de Compostela. Instituto da Lingua Galega (ILG), Piñeiro Martín, Andrés, García-Mateo, Carmen, Docío Fernández, Laura, and Regueira, Xosé Luís
- Published
- 2018
49. Study on the impact of the training corpus of the language model on the performance of a speech recognizer
- Author
-
Piñeiro Martín, Andrés, García-Mateo, Carmen, Docío Fernández, Laura, Regueira, Xosé Luís, and Universidade de Santiago de Compostela. Instituto da Lingua Galega (ILG)
- Subjects
Modelos de lenguaje ,Language models ,Modelos de linguaxe ,Variación lingüística ,Automatic speech recognition ,Palabras fuera de vocabulario ,Galego (lingua) ,Linguistic variation ,Lenguajes y Sistemas Informáticos ,Gallego (lengua) ,Galician (language) ,Reconocimiento automático da fala ,Reconocimiento automático del habla ,Out of vocabulary words ,Palabras fóra de vocabulario - Abstract
Dentro del reconocimiento automático del habla, los modelos de lenguaje estadísticos basados en la probabilidad de secuencia de palabras (n-gramas) suponen uno de los dos pilares sobre los que se basa su correcto funcionamiento. En este trabajo se expone el impacto que tienen sobre las prestaciones de reconocimiento a medida que estos modelos se mejoran con más texto de mejor calidad, cuando estos se ajustan a la aplicación final del sistema, y por lo tanto, cuando se reducen el número de palabras fuera de vocabulario (Out Of Vocabulary - OOV). El reconocedor con los distintos modelos de lenguaje ha sido aplicado sobre cortes de audio correspondientes a tres marcos experimentales: oralidad formal, habla en noticiarios, y TED talks en gallego. Los resultados obtenidos muestran claramente una mejora sobre los marcos experimentales propuestos. Within the automatic speech recognition, statistical language models based on the probability of word sequences (n-grams) represent one of the two pillars on which its correct functioning is based. In this paper, the impact they have on the recognition result is exposed as these models are improved with more text of better quality, when these are adjusted to the final application of the system, and therefore, when the number out of vocabulary (OOV) words is reduced. The recognizer with the different language models has been applied to audio cuts corresponding to three experimental frames: formal orality, talk on newscasts, and TED talks in Galician. The results obtained clearly show an improvement over the experimental frameworks proposed. El trabajo realizado está enmarcado en el proyecto del Plan Nacional TraceThem TEC2015-65345-P y en la red gallega TecAnDaLi ED431D 2016/011 financiada por la Xunta de Galicia. Asimismo se beneficia de las ayudas de la Xunta de Galicia de Grupos de Referencia Competitiva GRC2014/024 y Agrupación Estratéxica Consolidada de Galicia acreditación 2016-2019 y a la Unión Europa a través de los fondos FEDER.
- Published
- 2018
50. International Symposium on Applied Phonetics (2º. 2018. Fukushima, Japón)
- Author
-
Kimura, T., Tejedor García, Cristian, Machuca, M., Rios, A., and Escudero Mancebo, David
- Subjects
Computer Assisted Pronunciation Training ,Japonés (lengua) - Estudio y ensañanza ,Enseñanza asistida por ordenador ,Mobile application ,Reconocimiento automático del habla - Abstract
Producción Científica There are many software tools that rely on speech technologies for providing to users L2 pronunciation training in the field of Computer Assisted Pronunciation Training (CAPT) [1]. Currently the most popular mobile and desktop operating systems grant users a free access to several Text-To-Speech (TTS) and Automatic Speech Recognition (ASR) systems. The combination of adequate teaching methods and gamification strategies are expected to increase user engagement, provide an adequate feedback and, at the same time, keep users active and comfortable. This study describes the "Japañol" mobile application, a specific and controlled version of TipTopTalk! , a serious game for anywhere anytime self-learning, especially designed for Japanese learners of Spanish as a foreign language, that allows users to train and to test their pronunciation skills using their own Android mobile phones or Windows PCs. Ministerio de Economía, Industria y Competitividad, FEDER (Project TIN2014- 59852-R)
- Published
- 2018
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.