Contexte
PRISM est une bibliothèque Python composable pour la comparaison de chaînes de caractères, offrant une API unifiée pour différentes méthodes de similarité.
Fonctionnalités
- Distance d’édition : Levenshtein, Damerau-Levenshtein
- Similarité de séquence : plus longue sous-séquence commune, ratios
- Similarité phonétique : Soundex, Metaphone, etc.
- Similarité sémantique : via embeddings de texte
- API unifiée : toutes les méthodes partagent la même interface
- Composable : possibilité de combiner plusieurs métriques
Cas d’usage
Idéal pour le matching d’entités, la déduplication, la correction orthographique, la recherche floue et l’alignement de données textuelles.