Modèle machine learning pour multi catégorisation de topic dans des textes

a marqué ce sujet comme résolu.

Bonjour à tous les zesteux,

Depuis quelques temps je réfléchis à un truc que je voudrais faire à mon boulot (pas une demande de mon taff plus un challenge perso) mais je bute sur la définition de base du chemin.

J’ai un ensemble de texte qui sont en général mal écrit, parfois des bouts de phrases accolés …ect

les expert du metier de mon boulot ont l’habitude de lire ces bribes de textes et d’en sortir des infos : parfois inutiles mais souvent ca permet de savoir que c’est "urgent" , "VIP" ou bien "juridique" par exemple

J’ai donc un corpus de texte (assez énorme) composé de petits bouts de texte dont je peux retrouver les (multiples) catégories qui nous intéresse.

Je pensait donc a voir si on peut pas entrainer une petite IA pour les détecter automatiquement.

Cependant, après recherche, je vois le genre de modèle à choisir pour catégoriser des texte à conditions que chaque texte ne puisse aboutir qu’a une seule catégorie.

Or dans mon exemple un "fragment" peut aboutir à :

  • rien
  • une catégorie (par exemple "urgent")
  • N catégorie (par exemple "urgent" + "VIP" + "judiciaire" + "qualité"

Dans ce genre de cas j’avoue ne pas trouver vers quelle piste me tourner : existe-il des modèles qui pourraient répondre à ce genre de problématique ou est-ce que je me lance encore dans une croisade sans solution ? o_O

Merci à tous ;)

Oui, ça existe, ça s’appelle de la classification multilabel (un peu comme des tags). L’algo classique KNN à une version multilabel nommé MLKNN (Multi Label KNN) qui devrait te satisfaire.

Sinon tu trouveras sûrement ton bonheur dans la bibliothèque scikit-multilearn

+2 -0
Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte