Bonjour,
Je viens vers vous parce que j’ai le problème suivant: On reçoit, d’un fournisseur d’informations, des jeux de données (souvent de l’ordre de plusieurs millions de records). Et je souhaiterais identifier s’il existe des motifs communs et effectuer un classement selon les plus communs, afin d’extraire une éventuelle information.
Typiquement, si on reçoit: M. A B Mme. C D Je m’en fiche.
Mais si j’ai: M. A B (passport n° X) Mme. C D (passport n° Y) Je veux identifier cette partie: "(passport n° K)"
Je me suis dit que je pouvais essayer de tokenizer de manière un peu intelligente (Mme et Madame sont la même chose, ponctuations, …), d’éventuellement appliquer du Named Entity Recognition sur les tokens et puis appliquer un Smith–Waterman sur les nouvelles chaînes de "caractères".
Quelqu’un a-t-il déjà expérimenté ce genre d’idées, ou avez-vous une autre solution (un peu plus élégante) ? J’ai un peu peur côté timing. J’avais également pensé à une solution proche d’un Aho–Corasick mais j’ai pas envie de développer un truc compliqué =).
Merci d’avance pour vos réponses.