StellaScript — Béranger Thomas

Contexte

Développé initialement dans le cadre de projets d’IA souveraine à la Métropole de Lyon, j’ai ensuite poursuivi le développement de StellaScript indépendamment. Il s’agit d’un pipeline de transcription audio de bout en bout, conçu pour garantir la confidentialité et la souveraineté des données.

Démarche

Le pipeline enchaîne plusieurs modules spécialisés :

Enhancement audio (optionnel) : réduction de bruit via DeepFilterNet ou séparation de sources vocales via Demucs, pour améliorer la clarté de l’audio en entrée
Détection d’activité vocale (VAD) avec Silero-VAD, pour isoler les segments de parole et éviter les hallucinations du modèle de transcription
Diarisation des locuteurs – deux méthodes au choix :
- pyannote (défaut) : pipeline end-to-end pyannote/speaker-diarization-3.1, robuste sur les chevauchements de parole
- cluster : embeddings vocaux extraits par SpeechBrain (ECAPA-TDNN), puis regroupement par clustering agglomératif sur similarité cosine
Transcription via WhisperX (implémentation optimisée de Whisper d’OpenAI), avec horodatage au niveau du bloc, du segment ou du mot selon le mode choisi

Le pipeline fonctionne en mode temps réel (entrée microphone) ou en mode fichier (.wav), avec un système de découpage intelligent des chunks pour équilibrer qualité et latence.

Caractéristiques

100% local : aucune donnée ne quitte la machine après téléchargement initial des modèles (token Hugging Face requis uniquement pour pyannote)
Trois modes de sortie : block (paragraphes par locuteur, lisibilité maximale), segment (sous-titres horodatés), word (timestamp mot à mot)
Multilingue : toutes langues supportées par Whisper
Accélération GPU optionnelle via PyTorch CUDA
Open source sous licence MIT, avec documentation complète sur GitHub Pages

Impact

Ce projet démontre qu’il est possible de produire des transcriptions de qualité professionnelle sans recourir à des services cloud, en répondant aux exigences de confidentialité de tout secteur sensible.