5 results on '"Bañeras-Roux, Thibault"'
Search Results
2. HATS: An Open Data Set Integrating Human Perception Applied to the Evaluation of Automatic Speech Recognition Metrics
- Author
-
Bañeras-Roux, Thibault, Wottawa, Jane, Rouvier, Mickael, Merlin, Teva, Dufour, Richard, Goos, Gerhard, Founding Editor, Hartmanis, Juris, Founding Editor, Bertino, Elisa, Editorial Board Member, Gao, Wen, Editorial Board Member, Steffen, Bernhard, Editorial Board Member, Yung, Moti, Editorial Board Member, Ekštein, Kamil, editor, Pártl, František, editor, and Konopík, Miloslav, editor
- Published
- 2023
- Full Text
- View/download PDF
3. HATS: An Open Data Set Integrating Human Perception Applied to the Evaluation of Automatic Speech Recognition Metrics
- Author
-
Bañeras-Roux, Thibault, primary, Wottawa, Jane, additional, Rouvier, Mickael, additional, Merlin, Teva, additional, and Dufour, Richard, additional
- Published
- 2023
- Full Text
- View/download PDF
4. HATS : Un jeu de données intégrant la perception humaine appliquée à l'évaluation des métriques de transcription de la parole
- Author
-
Bañeras-Roux, Thibault, Wottawa, Jane, Rouvier, Mickael, Merlin, Teva, Dufour, Richard, Traitement Automatique du Langage Naturel (LS2N - équipe TALN ), Laboratoire des Sciences du Numérique de Nantes (LS2N), Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-École Centrale de Nantes (Nantes Univ - ECN), Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes université - UFR des Sciences et des Techniques (Nantes univ - UFR ST), Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Nantes Université (Nantes Univ), Laboratoire d'Informatique de l'Université du Mans (LIUM), Le Mans Université (UM), Laboratoire Informatique d'Avignon (LIA), Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI, Faculty of Applied Sciences University of West Bohemia Plzeň (Pilsen), NTIS P2 Research Center University of West Bohemia Plzeň (Pilsen), Faculty of Informatics Masaryk University Brno, and ANR-20-CE23-0005,DIETS,Diagnostic automatique des erreurs des systèmes de transcription de parole end-to-end à partir de leur réception par les utilisateurs(2020)
- Subjects
evaluation metrics ,automatic speech recognition ,human perception ,[INFO]Computer Science [cs] ,manual annotation ,[INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
International audience; Conventionally, Automatic Speech Recognition (ASR) systems are evaluated on their ability to correctly recognize each word contained in a speech signal. In this context, the word error rate (WER) metric is the reference for evaluating speech transcripts. Several studies have shown that this measure is too limited to correctly evaluate an ASR system, which has led to the proposal of other variants of metrics (weighted WER, BERTscore, semantic distance, etc.). However, they remain system-oriented, even when transcripts are intended for humans. In this paper, we firstly present Human Assessed Transcription Side-by-side (HATS), an original French manually annotated data set in terms of human perception of transcription errors produced by various ASR systems. 143 humans were asked to choose the best automatic transcription out of two hypotheses. We investigated the relationship between human preferences and various ASR evaluation metrics, including lexical and embedding-based ones, the latter being those that correlate supposedly the most with human perception.; Traditionnellement, les systèmes de reconnaissance automatique de la parole (RAP) sont évalués sur leur capacité à reconnaître correctement chaque mot contenu dans un signal vocal. Dans ce contexte, la mesure du taux d'erreur-mot est la référence pour évaluer les transcriptions vocales. Plusieurs études ont montré que cette mesure est trop limitée pour évaluer correctement un système de RAP, ce qui a conduit à la proposition d'autres variantes et d'autres métriques. Cependant, toutes ces métriques restent orientées "système'' alors même que les transcriptions sont destinées à des humains. Dans cet article, nous proposons un jeu de données original annoté manuellement en termes de perception humaine des erreurs de transcription produites par divers systèmes de RAP. 143 humains ont été invités à choisir la meilleure transcription automatique entre deux hypothèses. Nous étudions la relation entre les préférences humaines et diverses mesures d'évaluation pour les systèmes de RAP, y compris les mesures lexicales et celles fondées sur les plongements de mots.
- Published
- 2023
5. Mesures linguistiques automatiques pour l'évaluation des systèmes de Reconnaissance Automatique de la Parole
- Author
-
Bañeras Roux, Thibault, Rouvier, Mickael, Wottawa, Jane, Dufour, Richard, Traitement Automatique du Langage Naturel (LS2N - équipe TALN ), Laboratoire des Sciences du Numérique de Nantes (LS2N), Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-École Centrale de Nantes (Nantes Univ - ECN), Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes université - UFR des Sciences et des Techniques (Nantes univ - UFR ST), Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Nantes Université (Nantes Univ), Laboratoire Informatique d'Avignon (LIA), Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI, Laboratoire d'Informatique de l'Université du Mans (LIUM), Le Mans Université (UM), and ANR-20-CE23-0005,DIETS,Diagnostic automatique des erreurs des systèmes de transcription de parole end-to-end à partir de leur réception par les utilisateurs(2020)
- Subjects
Reconnaissance automatique de la parole ,Distance sémantique ,[INFO]Computer Science [cs] ,Métriques d'évaluation ,Plongement lexical ,Étiquetage morpho-syntaxique - Abstract
National audience; Evaluating transcriptions from automatic speech recognition (ASR) systems is a difficult and stillopen problem, which often boils down to not considering only the word-error rate (WER). We present in this article a set of metrics, often used in other tasks in natural language processing (NLP), which we propose to apply in addition to WER in ASR. In particular, we introduce two measures relating to the morpho-syntactic and semantic aspects of transcribed words : 1) the POSER (Part-of-speech Error Rate), which highlights the grammatical aspects, and 2) the EmbER (Embedding Error Rate), an original measurement which takes up that of the WER by providing a weighting according to the semantic distance of the badly transcribed words. In order to show the additional information they provide, we also offer a qualitative analysis describing the contribution at the linguistic level of the language models used for the a posteriori rescoring of transcription hypotheses.; L'évaluation de transcriptions issues de systèmes de Reconnaissance Automatique de la Parole (RAP) est un problème difficile et toujours ouvert, qui se résume généralement à ne considérer que le WER. Nous présentons dans cet article un ensemble de métriques, souvent utilisées dans d'autres tâches en traitement du langage naturel, que nous proposons d'appliquer en complément du WER en RAP. Nous introduisons en particulier deux mesures considérant les aspects morpho-syntaxiques et sémantiques des mots transcrits : 1) le POSER (Part-of-speech Error Rate), qui évalue les aspects grammaticaux, et 2) le EmbER (Embedding Error Rate), une mesure originale qui reprend celle du WER en apportant une pondération en fonction de la distance sémantique des mots mal transcrits. Afin de montrer les informations supplémentaires qu'elles apportent, nous proposons également une analyse qualitative décrivant l'apport au niveau linguistique de modèles de langage utilisés pour le réordonnancement d'hypothèses de transcription a posteriori.
- Published
- 2022
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.