Back to Search Start Over

Analyse des performances des algorithmes d'estimation de la fréquence fondamentale dans le cadre de la voix pathologique

Authors :
Vaysse, Robin
Astesano, Corine
Farinas, Jérôme
Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio (IRIT-SAMoVA)
Institut de recherche en informatique de Toulouse (IRIT)
Université Toulouse 1 Capitole (UT1)
Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3)
Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP)
Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1)
Université Fédérale Toulouse Midi-Pyrénées
Unité de Recherche Interdisciplinaire Octogone-Lordat (Octogone-Lordat)
Université Toulouse - Jean Jaurès (UT2J)
Association Française de la Communication Parlée
DAS-SAB
ANR-18-CE45-0008,RUGBI,Recherche d'unités linguistiques pertinentes pour améliorer la mesure de l'intelligibilité de la parole altérée par des troubles de production pathologique(2018)
Source :
Séminaire AFCP 2021 – Phonétique Clinique, Séminaire AFCP 2021 – Phonétique Clinique, May 2021, Toulouse (virtuel), France
Publication Year :
2021
Publisher :
HAL CCSD, 2021.

Abstract

National audience; La mesure de la fréquence fondamentale (F0) est un élément essentiel du traitement automatique de la parole, notamment dans le cadre de l'étude de la prosodie. Il est crucial d'avoir une bonne estimation de ce paramètre. De nombreux algorithmes d'estimation de la F0 fournissent de bonnes approximations sur de la parole saine, cependant les performances de ces algorithmes ne sont pas connues dans le cadre de la parole pathologique. L'objectif ici est de tester plusieurs algorithmes sur des enregistrements de personnes atteintes de cancers des voies aérodigestives supérieures (VADS) ainsi que de la Maladie de Parkinson afin de savoir quels algorithmes sont les plus aptes à être utilisés pour de futures études sur ces pathologies. Nous avons retenu 12 algorithmes de détection de F0 en se basant en partie sur une récente étude [9] ayant comparé ces algorithmes pour la parole bruitée. Nous avons ajouté plusieurs algorithmes basés sur des réseaux de neurones profonds ainsi qu’un vote médian entre plusieurs algorithmes (cf. tableau 1). Les enregistrements sont issus du projet RUGBI, contenant des patients atteints de cancer VADS [15] et des patients atteints de la Maladie de Parkinson [8]. Nous avons sélectionné 24 enregistrements (8 sains, 8 cancers, et 8 Parkinson) correspondant à une tâche de lecture. Les enregistrements présentant les plus grosses déficiences au niveau de la F0 ont été choisis en se basant sur des annotations d’experts. La F0 de référence a été obtenue via une correction manuelle de l’alignement des pics glottaux automatiquement annotés par le logiciel Praat [3] comme illustré sur la Figure 1. Chaque algorithme a été évalué selon sa capacité à déterminer si une zone de parole est voisée ou non ainsi que selon sa capacité à calculer une estimation proche de la F0 de référence [9]. Les résultats obtenus sont décrits dans le Tableau 1. Les algorithmes se basant sur le domaine temporel du signal proposent de bons résultats sur la détection de voisement : ACF [2], AMDF [13] et REAPER (score aux alentours de 5% d’erreurs que ce soit pour la parole pathologique ou saine). Concernant la précision des estimations de la F0, ce sont les algorithmes basés sur des réseaux neuronaux qui procurent les meilleurs résultats avec environ 1% d’erreurs grossières sur la parole cancer pour FCN-F0 et moins de 0.5% sur la parole saine et Parkinsonienne. Le vote médian est le meilleur compromis entre détection de voisement et estimation de la F0.

Details

Language :
French
Database :
OpenAIRE
Journal :
Séminaire AFCP 2021 – Phonétique Clinique, Séminaire AFCP 2021 – Phonétique Clinique, May 2021, Toulouse (virtuel), France
Accession number :
edsair.dedup.wf.001..2581f6554867f36ca77e25d9521b1244