Contexte
Développé initialement dans le cadre des projets d’IA souveraine à la Métropole de Lyon, j’ai ensuite poursuivi le développement de StellaScript indépendamment. Il s’agit d’un pipeline de transcription audio de bout en bout, conçu pour garantir la confidentialité et la souveraineté des données.
Architecture
Le pipeline enchaîne plusieurs modules spécialisés :
- Enhancement audio (optionnel) : réduction de bruit via
DeepFilterNetou séparation de sources vocales viaDemucs, pour améliorer la clarté de l’audio en entrée - Détection d’activité vocale (VAD) avec
Silero-VAD, pour isoler les segments de parole et éviter les hallucinations du modèle de transcription - Diarisation des locuteurs — deux méthodes au choix :
pyannote(défaut) : pipeline end-to-endpyannote/speaker-diarization-3.1, robuste sur les chevauchements de parolecluster: embeddings vocaux extraits parSpeechBrain(ECAPA-TDNN), puis regroupement par clustering agglomératif sur similarité cosine
- Transcription via
WhisperX(implémentation optimisée de Whisper d’OpenAI), avec horodatage au niveau du bloc, du segment ou du mot selon le mode choisi
Le pipeline fonctionne en mode temps réel (entrée microphone) ou en mode fichier (.wav), avec un système de découpage intelligent des chunks pour équilibrer qualité et latence.
Caractéristiques
- 100% local : aucune donnée ne quitte la machine après téléchargement initial des modèles (token Hugging Face requis uniquement pour
pyannote) - Trois modes de sortie :
block(paragraphes par locuteur, lisibilité maximale),segment(sous-titres horodatés),word(timestamp mot à mot) - Multilingue : français, anglais, espagnol, allemand, et toutes les langues supportées par Whisper
- Accélération GPU optionnelle via PyTorch CUDA
- Open source sous licence MIT, avec documentation complète sur GitHub Pages
Impact
Ce projet démontre qu’il est possible de produire des transcriptions de qualité professionnelle — interviews, focus groups, présentations en direct — sans recourir à des services cloud, en répondant aux exigences de confidentialité de tout secteur sensible.