Data Scientist
& Ingénieur IA

Je conçois et déploie des solutions basées sur l'intelligence artificielle et l'analyse de données. Plus de 20 ans d'expérience, de l'ingénierie logicielle à la science des données, pour transformer des enjeux métier en applications robustes. Expert en NLP, LLM et pipelines de données, je mets un point d'honneur à allier rigueur scientifique et approche pédagogique.

Voir mes projets CV interactif

Projets

SmartWatch

Pipeline de scraping des horaires d'établissements publics lyonnais. Exploite embeddings et LLM pour produire une sortie structurée et univoque, comparée à data.grandlyon.com.

Python LLM Web Scraping Embeddings NLP

Voir le projet → Démo → GitHub ↗

StellaScript

Pipeline Python de transcription audio local, avec diarisation des locuteurs, utilisable en temps réel (micro) ou sur fichier. Fonctionne sans accès internet après téléchargement des modèles.

Python Speech Processing WhisperX Diarization Pyannote SpeechBrain Open Source

Voir le projet → Démo → GitHub ↗

PRISM

Bibliothèque Python modulaire pour la correspondance de similarité de chaînes. Supporte distance d'édition, similarité de séquence, phonétique et sémantique avec une API unifiée.

Python NLP Embeddings String Matching Library

Voir le projet → GitHub ↗

ShadowLog

Plateforme d'analyse de logs par IA, utilisant le clustering et la détection statistique d'anomalies pour identifier des patterns dans les fichiers de logs.

Python Machine Learning Clustering Anomaly Detection ELK Stack

Voir le projet → Démo → GitHub ↗

ASR.lab

Plateforme de benchmarking pour systèmes de reconnaissance automatique de la parole : dégradation audio contrôlée, enhancement, normalisation et comparaison multi-moteurs avec rapports interactifs.

Python ASR Benchmark Whisper Wav2Vec2 Speech Recognition Open Source

Voir le projet → Démo → GitHub ↗

ForzaEmbed

Framework Python de benchmarking pour modèles d'embedding textuel : grid search sur les stratégies de chunking et métriques de similarité, avec heatmap textuelle et visualisations des espaces d'embeddings.

Python NLP Embeddings Benchmark RAG Chunking Open Source

Voir le projet → Démo → GitHub ↗

Selma

Template TypeScript pour visualiser et explorer interactivement des structures de données hiérarchiques.

TypeScript React Vite D3 Tailwind i18n

Voir le projet → Démo → GitHub ↗

School of Statistics

Visualisations interactives pour explorer les concepts de statistique et d'apprentissage automatique.

JavaScript Statistics Data Visualization D3

Voir le projet → Démo → GitHub ↗

Data Scientist & Ingénieur IA

Projets

Data Scientist
& Ingénieur IA