Béranger Thomas
PythonASRBenchmarkWhisperWav2Vec2Speech RecognitionOpen Source

ASR.lab

ASR.lab

Plateforme de benchmarking pour systèmes de reconnaissance automatique de la parole : dégradation audio contrôlée, enhancement, normalisation et comparaison multi-moteurs avec rapports interactifs.

Contexte

ASR.lab est une plateforme d’évaluation systématique des moteurs de reconnaissance automatique de la parole (ASR). Elle permet de comparer des modèles issus de différentes architectures et organisations — OpenAI, Meta, NVIDIA, Alibaba — dans des conditions acoustiques contrôlées et reproductibles, via une interface de configuration entièrement déclarative (YAML).

Architecture

Le pipeline de benchmark enchaîne des étapes configurables en produit cartésien :

  1. Dégradation audio : application de conditions acoustiques réalistes (réverbération, bruit, compression) via plugins VST3, avec gestion de presets nommés
  2. Enhancement audio (optionnel) : débruitage par Demucs ou DeepFilterNet, appliqué sur l’audio dégradé
  3. Normalisation de sonie : grid search sur différents niveaux LUFS conformes à la norme EBU R128
  4. Transcription ASR : passage sur l’ensemble des moteurs activés (Whisper, Wav2Vec2, NeMo, Vosk, SeamlessM4T, Moonshine, SenseVoice)
  5. Calcul de métriques : WER, CER, MER, WIL, WIP — calculés en double pour chaque transcription (texte brut et texte normalisé), constituant ainsi une dimension supplémentaire du grid search

Chaque combinaison dégradation × enhancement × normalisation × moteur génère une entrée distincte dans les résultats, permettant une analyse exhaustive des facteurs influençant les performances.

Caractéristiques

Impact

ASR.lab permet de répondre concrètement à la question “quel moteur ASR, dans quelles conditions, pour quelle langue ?” — un choix structurant pour tout projet de transcription à grande échelle. En rendant l’évaluation reproductible et exhaustive, il apporte une base factuelle solide pour comparer des solutions open source et orienter des décisions techniques.

Voir la démo → GitHub ↗