Béranger Thomas

Data Scientist
& Ingénieur IA

Je conçois et déploie des solutions basées sur l'intelligence artificielle et l'analyse de données. Plus de 20 ans d'expérience, de l'ingénierie logicielle à la science des données, pour transformer des enjeux métier en applications robustes. Expert en NLP, LLM et pipelines de données, je mets un point d'honneur à allier rigueur scientifique et approche pédagogique.

Projets

SmartWatch

SmartWatch

Pipeline de scraping des horaires d'établissements publics lyonnais. Exploite embeddings et LLM pour produire une sortie structurée et univoque, comparée à data.grandlyon.com.

Python LLM Web Scraping Embeddings NLP
StellaScript

StellaScript

Pipeline Python de transcription audio local, avec diarisation des locuteurs, utilisable en temps réel (micro) ou sur fichier. Fonctionne sans accès internet après téléchargement des modèles.

Python Speech Processing WhisperX Diarization Pyannote SpeechBrain Open Source
PRISM

PRISM

Bibliothèque Python modulaire pour la correspondance de similarité de chaînes. Supporte distance d'édition, similarité de séquence, phonétique et sémantique avec une API unifiée.

Python NLP Embeddings String Matching Library
ShadowLog

ShadowLog

Plateforme d'analyse de logs par IA, utilisant le clustering et la détection statistique d'anomalies pour identifier des patterns dans les fichiers de logs.

Python Machine Learning Clustering Anomaly Detection ELK Stack
ASR.lab

ASR.lab

Plateforme de benchmarking pour systèmes de reconnaissance automatique de la parole : dégradation audio contrôlée, enhancement, normalisation et comparaison multi-moteurs avec rapports interactifs.

Python ASR Benchmark Whisper Wav2Vec2 Speech Recognition Open Source
ForzaEmbed

ForzaEmbed

Framework Python de benchmarking pour modèles d'embedding textuel : grid search sur les stratégies de chunking et métriques de similarité, avec heatmap textuelle et visualisations des espaces d'embeddings.

Python NLP Embeddings Benchmark RAG Chunking Open Source