1. Environment-aware knowledge distillation for improved resource-constrained edge speech recognition.
- Author
-
Santos Pimentel, Arthur and Santos Pimentel, Arthur
- Abstract
Les avancées récentes dans l’apprentissage auto-supervisé ont permis aux systèmes de reconnaissance automatique de la parole (ASR) d’atteindre l’etat de l’art des taux d’erreurs de reconnaissance de mots (WER) tout en ne nécessitant qu’une fraction des données étiquetées nécessaires à leurs prédécesseurs. Néanmoins, bien que de tels modèles atteignent des résultats de pointe dans des scénarios d’entraînement/test correspondants, leurs performances se dégradent considérablement lorsqu’ils sont testés dans des conditions non vues. Pour palier à ce problème, des stratégies telles que l’augmentation de données et/ou l’adaptation au domaine ont été explorées. Cependant, les modèles disponibles sont encore trop volumineux pour être considérés pour des applications vocales sur des appareils aux ressources limitées ; ainsi, des outils de compression de modèle tels que l’élagage de paramètres, la quantification de poids et la distillation de connaissances sont nécessaires. Dans notre étude sur l’apprentissage de la représentation de la parole auto-supervisée (S3RL), nous abordons d’abord les effets de non-correspondance d’entraînement/test sur les modèles compressés, en investiguant l’impact de la quantification des paramètres et de l’élagage du modèle sur le modèle robust wav2vec 2.0 dans des conditions bruyantes, réverbérantes et mixtes. De plus, nous améliorons la recette de distillation DistilHuBERT avec des têtes de prédiction optimisées, un enrichissement du jeu de données spécifique pour différents environnements, et un estimateur d’environnement en temps réel pour la sélection du modèle lors de l’inférence. Des expériences sur l’ensemble de données LibriSpeech, corrompu par différents niveaux de bruit et de réverbération, démontrent qu’une diversité de données pendant l’entraînement renforce la robustesse du modèle contre la compression, le bruit et la réverbération. Notre méthode proposée surpassent les modèles de références jusqu’à 48,4% et 89,2% dans le taux
- Published
- 2024