Bonjour à tous les zesteux,
Depuis quelques temps je réfléchis à un truc que je voudrais faire à mon boulot (pas une demande de mon taff plus un challenge perso) mais je bute sur la définition de base du chemin.
J’ai un ensemble de texte qui sont en général mal écrit, parfois des bouts de phrases accolés …ect
les expert du metier de mon boulot ont l’habitude de lire ces bribes de textes et d’en sortir des infos : parfois inutiles mais souvent ca permet de savoir que c’est "urgent" , "VIP" ou bien "juridique" par exemple
J’ai donc un corpus de texte (assez énorme) composé de petits bouts de texte dont je peux retrouver les (multiples) catégories qui nous intéresse.
Je pensait donc a voir si on peut pas entrainer une petite IA pour les détecter automatiquement.
Cependant, après recherche, je vois le genre de modèle à choisir pour catégoriser des texte à conditions que chaque texte ne puisse aboutir qu’a une seule catégorie.
Or dans mon exemple un "fragment" peut aboutir à :
- rien
- une catégorie (par exemple "urgent")
- N catégorie (par exemple "urgent" + "VIP" + "judiciaire" + "qualité"
Dans ce genre de cas j’avoue ne pas trouver vers quelle piste me tourner : existe-il des modèles qui pourraient répondre à ce genre de problématique ou est-ce que je me lance encore dans une croisade sans solution ?
Merci à tous