COMPÉTENCES
Langues
Français (C2) · Anglais (C1) · Espagnol (A2)
Atouts
Esprit d'analyse et de synthèse · Rigueur · Autonomie · Pédagogie · Créativité
Langages
Python · R · SQL · Bash · Regex
Science des données & IA
Machine Learning · Scikit-learn · Deep Learning · PyTorch · Computer Vision · YOLO · NLP · SpaCy · NLTK · LLM · Embeddings · RAG · Speech Processing · Time Series · Web Scraping · MLOps
Gestion des données
Dataframe · Pandas · Polars · Relational databases · PostgreSQL · Oracle · MS Access · SQLite · NoSQL · MongoDB · Vector databases · FAISS · ChromaDB · Data Warehouse · ETL · XML · Redis
Visualisation des données
Streamlit · Dash · Gradio · Shiny · Tableau · Power BI · Qlik · Grist
Infrastructure et outils
Linux · Debian · RedHat · Docker · Kubernetes · Azure · Git · DevOps · CI/CD · API · RESTful · FastAPI · Airflow · ELK · Dataiku · Knime · Nagios · Centreon · OpenVpn · RDD
EXPÉRIENCES PROFESSIONNELLES
Data Scientist & Ingénieur IA — Métropole de Lyon - ERASME
Mai 2025 - Sep. 2025 · Stage
Pilotage de projets IA open source (POC → production), développement Python et déploiement on-premise souverain.
Python, ETL, LLM, Embeddings, Docker, Agile
- SmartWatch : workflow de mise à jour automatisé pour data.grandlyon.com — web scraping, filtrage par embeddings et extraction structurée via LLM. Impact : réduction de 75% du temps de traitement manuel.
- ForzaEmbed : conception et développement d'un outil de grid search pour les hyperparamètres d'embeddings RAG, avec visualisation des résultats via heatmap textuelle.
- StellaScript : pipeline de transcription speech-to-text entièrement local, autonome et open source (démixage, diarisation, horodatage), garantissant confidentialité et souveraineté des données.
- Co-conception et animation d'ateliers et de séminaires "Immersion IA" pour former et sensibiliser les agents de la Métropole à l'intelligence artificielle.
- Élaboration de matériel pédagogique pour rendre les concepts complexes accessibles et faciliter l'adoption des technologies IA.
Ingénieur Data et Interopérabilité — Dedalus Healthcare France
Avr. 2008 – Juil. 2024 · CDI
Extractions SQL, traitement de données (Python/Pandas, Bash), supervision Nagios/Centreon, interopérabilité HPRIM/HL7.
Python, ETL, Pandas, SQL, Bash, Interopérabilité
- Développement de programmes de traitement des données en Python (Pandas) et Bash ; extraction par requêtes SQL, génération de fichiers Excel pour les clients, réintégration en bases de données hébergées.
- Déploiement et administration de Nagios/Centreon (400 serveurs / 10 000 sondes), développement de sondes, gestion des accès, implémentation d'alertes multicanal (API SOAP/REST).
- Réalisation d'interfaces d'interopérabilité avec des middlewares (EAI), SIH et laboratoires via les protocoles HPRIM et HL7, avec les SGL Hexalis et Kalisil.
- Formateur, rédacteur technique et support technique second niveau.
Ingénieur d'application — Agfa Healthcare France
Déc. 2003 – Mars 2008 · CDI
Déploiement du SGL Hexalis, conduite du changement, formation et support post-installation.
SGL, Gestion du changement, Linux, RS232, CUPS
- Déploiement et mise en production du système de gestion de laboratoire Hexalis, incluant la conception et l'implémentation de solutions techniques sous RedHat.
- Accompagnement au changement de plus de 100 laboratoires, incluant la formation et le suivi post-installation.
- Coordination avec des partenaires externes (DSI, EAI, éditeurs, fabricants d'automates) et internes (gestion des escalades et des demandes d'évolution).
- Réalisation d'interfaces d'interopérabilité pour les automates d'analyse.
Ingénieur biomédical — Centre hospitalier universitaire de Montpellier
Mars 2003 – août 2003 · Stage
Développement d'un logiciel automatisé de fiabilisation et d'analyse de données (Access/Excel/VBA) pour exploiter la GMAO biomédicale.
GMAO, ETL, MS Access, MS Excel, VBA
- Réalisation d'une enquête nationale (16 CHU) et d'une analyse des risques (Ishikawa) pour définir les indicateurs clés et critères de validation des données.
- Conception d'"Analyse", un outil basé sur MS Access permettant le filtrage, le nettoyage et la validation automatisée des bons de travail bruts.
- Développement de macros VBA pour automatiser l'extraction de fichiers textes, la manipulation des bases de données et la standardisation des champs.
- Création de tableaux de bord interactifs sous MS Excel (tableaux croisés dynamiques) pour l'analyse des pannes, le suivi des délais et l'évaluation des coûts.
- Conception d'un guide d'utilisation pédagogique et animation de sessions de formation pour accompagner la conduite du changement auprès de l'équipe.
Assistant de recherche — Grenoble-Institut des neurosciences
Jan. 2002 – Mars 2002 · Stage
Programmation de séquences IRM de diffusion et modélisation mathématique du tenseur de diffusion pour l'étude de l'œdème cérébral.
IRM, RMN, Modélisation mathématique
- Modélisation mathématique : calcul analytique du facteur b (séquence de Stejskal-Tanner) en intégrant les temps de montée et les gradients d'imagerie pour minimiser les erreurs de mesure.
- Réalisation d'expériences in-vitro (fantômes d'eau) et in-vivo (cerveaux de rats) sur un imageur IRM haut champ (7 Teslas) pour calibrer la séquence.
- Traitement du signal par Transformée de Fourier 2D (2DFT) pour la reconstruction d'images et la cartographie du mouvement brownien.
- Validation scientifique de la séquence développée par comparaison des résultats expérimentaux avec les modèles théoriques et la littérature.
PROJETS
SmartWatch
Pipeline de scraping des horaires d'établissements publics lyonnais. Exploite embeddings et LLM pour produire une sortie structurée et univoque, comparée à data.grandlyon.com. Diminue de 75% le temps de mise à jour de data.grandlyon.com.
Python, LLM, Scraping web, Embeddings de texte
ForzaEmbed
Framework Python d'évaluation de modèles d'embedding par grid search, générant des rapports HTML interactifs avec heatmaps textuelles et projections t-SNE/UMAP/PCA. Permet une sélection fine des modèles d'embeddings et de leurs hyperparamètres pour les RAG.
Python, TAL, Embeddings de texte, Benchmarking, RAG
ASR.lab
Plateforme d'évaluation pour moteurs ASR avec dégradations, normalisation et améliorations audio configurables et reproductibles. Supporte l'analyse multilingues et génère des rapports de performance interactifs.
Python, Whisper, Wav2Vec2, NeMo, Vosk, SeamlessM4T, Moonshine, SenseVoice, Traitement audio
School of Statistics
Visualisations interactives pour explorer les concepts de statistique et d'apprentissage automatique.
JavaScript, Statistiques, Visualisation des données
StellaScript
Application Python de transcription audio fonctionnant entièrement en local après téléchargement des modèles. Combine des modèles dédiés à la reconnaissance vocale, la diarisation et les embeddings de locuteurs, produisant des transcriptions horodatées.
Python, Open source, Traitement audio, Diarisation
PRISM
Bibliothèque Python modulaire pour la correspondance de similarité de chaînes. Supporte distance d'édition, similarité de séquence, phonétique et sémantique avec une API unifiée.
Python, TAL, Embeddings
ShadowLog
Plateforme d'analyse de logs par IA, utilisant le clustering et la détection statistique d'anomalies pour identifier des patterns dans les fichiers de logs.
Python, Apprentissage automatique, Clustering, ELK Stack
Selma
Template personnalisable pour créer, visualiser et explorer interactivement une structure de données hiérarchique.
TypeScript, D3, Visualisation de données, React, Vite, i18n, Tailwind CSS