Béranger Thomas

Data Scientist & Ingénieur IA

Des enjeux métier à une IA en production.

Je conçois et déploie des applications IA, du cadrage à la mise en production. Vingt-deux ans d'ingénierie et une solide pratique de la donnée. Je combine rigueur technique, ancrage métier et sens de la pédagogie.

  • Disponible immédiatement
  • Lyon · France
  • Python · LLM · Machine Learning · Audio & speech processing

Projets

Open source · 2026

Quelques réalisations qui résument ma pratique :

SmartWatch
NLP & RAG

SmartWatch

Stable
sept. 2025

Pipeline d'automatisation de mise à jour de data.grandlyon.com. Exploite embeddings et LLM pour produire une sortie structurée et univoque.

Python LLM Web Scraping Embeddings NLP
ForzaEmbed
NLP & RAG

ForzaEmbed

Stable
juil. 2025

Framework Python de benchmarking pour modèles d'embedding textuel : grid search sur les stratégies de chunking et métriques de similarité, avec heatmap textuelle et visualisations des espaces d'embeddings.

Python NLP Embeddings Benchmark RAG Chunking Open Source
ASR.lab
Audio & speech processing

ASR.lab

Stable
oct. 2025

Plateforme d'évaluation comparative pour les systèmes de reconnaissance vocale automatique : dégradation, amélioration et normalisation contrôlées du signal audio, ainsi que comparaison entre plusieurs moteurs; avec des rapports interactifs.

ASR Benchmark Whisper Nemo Speech recognition
StellaScript
Audio & speech processing

StellaScript

Stable
sept. 2025

Pipeline Python de transcription audio local, avec diarisation des locuteurs, utilisable en temps réel (micro) ou sur fichier. Fonctionne sans accès internet après téléchargement des modèles.

Python Speech Processing WhisperX Diarization Pyannote SpeechBrain Open Source
Selma
Data visualization

Selma

Actif
juin 2026

Application React/TypeScript pour visualiser et parcourir des taxonomies hiérarchiques et DAG dans un navigateur.

DAG TypeScript React Vite React Flow Tailwind i18n
ShadowLog

ShadowLog

Plateforme d'analyse de logs par IA, utilisant le clustering et la détection statistique d'anomalies pour identifier des patterns dans les fichiers de logs.

Python Machine Learning Clustering Anomaly Detection ELK Stack
PRISM
NLP & RAG

PRISM

Stable
oct. 2025

Bibliothèque Python modulaire pour la correspondance de similarité de chaînes de caractères. Supporte distance d'édition, similarité de séquence, phonétique et sémantique, avec une API unifiée.

Python NLP Embeddings String matching Library