Back to Search Start Over

A Semi-Automatic Approach to Create Large Gender-and Age-Balanced Speaker Corpora: Usefulness of Speaker Diarization & Identification

Authors :
Uro, Rémi
Doukhan, David
Rilliard, Albert
Larcher, Laëtitia
Adgharouamane, Anissa-Claire
Tahon, Marie
Laurent, Antoine
Rilliard, Albert
Mesure de l'égalité entre les sexes dans les médias - - GEM2019 - ANR-19-CE38-0012 - AAPG2019 - VALID
Institut National de l'Audiovisuel (INA)
Traitement du Langage Parlé (TLP )
Laboratoire Interdisciplinaire des Sciences du Numérique (LISN)
Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Sciences et Technologies des Langues (STL)
Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)
Expressiveness in Human Centered Data/Media (EXPRESSION)
Université de Bretagne Sud (UBS)-MEDIA ET INTERACTIONS (IRISA-D6)
Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA)
Université de Rennes 1 (UR1)
Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées - Rennes (INSA Rennes)
Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1)
Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA)
Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)
Laboratoire d'Informatique de l'Université du Mans (LIUM)
Le Mans Université (UM)
Spécinov SARL
ANR-19-CE38-0012,GEM,Mesure de l'égalité entre les sexes dans les médias(2019)
Source :
13th Language Resources and Evaluation Conference, 13th Language Resources and Evaluation Conference, Jun 2022, Marseille, France. pp.3271-3280
Publication Year :
2022
Publisher :
HAL CCSD, 2022.

Abstract

International audience; This paper presents a semi-automatic approach to create a diachronic corpus of voices balanced for speaker's age, gender, and recording period, according to 32 categories (2 genders, 4 age ranges and 4 recording periods). Corpora were selected at French National Institute of Audiovisual (INA) to obtain at least 30 speakers per category (a total of 960 speakers; only 874 have be found yet). For each speaker, speech excerpts were extracted from audiovisual documents using an automatic pipeline consisting of speech detection, background music and overlapped speech removal and speaker diarization, used to present clean speaker segments to human annotators identifying target speakers. This pipeline proved highly effective, cutting down manual processing by a factor of ten. Evaluation of the quality of the automatic processing and of the final output is provided. It shows the automatic processing compare to up-to-date process, and that the output provides high quality speech for most of the selected excerpts. This method shows promise for creating large corpora of known target speakers.

Details

Language :
English
Database :
OpenAIRE
Journal :
13th Language Resources and Evaluation Conference, 13th Language Resources and Evaluation Conference, Jun 2022, Marseille, France. pp.3271-3280
Accession number :
edsair.dedup.wf.001..66ff6b8d14f069ee19a11798baf9e450