Hello les agrumes,
J’ai le problème suivant :
J’ai une liste de spécialités médicales, du genre ["Dermatology", "Cardiology", ...]
et j’ai une appli Web qui permet à un utilisateur de rechercher des spécialistes en tapant simplement dans une barre de recherche. J’essaie de trouver un algorithme capable d’inférer que, par exemple :
general
va correspondre à General Practice
de ma liste, ou bien encore que gynecology
va correspondre à Obstetrics and gynecology
de ma liste.
Pour cela, j’utilise actuellement l’algorithme de Jaro avec un seuil de 0.65 minimum. J’ai l’impression que l’algorithme de Jaro donne de meilleurs résultats que la distance de Levenshtein que j’avais essayé avant.
Le gros souci de Jaro, ici, c’est qu’il est très sensible sur les fins et les débuts de mots, si j’ai bien compris. Or, le souci c’est qu’en spécialités médicales, on va avoir beaucoup de mots finissant en ~logy
ce qui rend cet algo assez impraticable…
Je ne sais pas trop quel est l’algorithme à utiliser dans ce cas précis, j’ai essayé en à tâtons avec Lev et Jaro, mais sans trop de succès. Vous avez des idées d’autre algos plus adaptés ou des pistes ?
Merci !