Petit voyage dans le monde du text mining, de l'analyse de données et du machine

Petit voyage dans le monde du text mining, de l'analyse de données et du machine learning

a marqué ce sujet comme résolu.

Tout le monde se secoue ! :D

J'ai commencé (vendredi 30 octobre 2015 à 00h37) la rédaction d'un tutoriel au doux nom de « Petit voyage dans le monde du text mining, de l'analyse de données et du machine » et j'ai dans l'objectif de proposer en validation un texte aux petits oignons. Je fais donc appel à votre bonté sans limite pour dénicher le moindre pépin, que ce soit à propos du fond ou de la forme. Vous pourrez consulter la bêta à votre guise à l'adresse suivante :

Merci !


Bonjour,

Voici le début (enfin, les 95 %) d'un tutoriel que j'avais commencé à rédiger il y a deux ou trois ans. Il manque les deux derniers paragraphes, les liens vers les implémentations en Python et la partie « Pour aller plus loin ».

Aussi, j'ai du mal à trouver un titre adapté (pour le moment j'ai recopié le sous-titre), qui soit assez explicite, qui ne donne pas l'impression d'être totalement tourné vers l'analyse textuelle et qui au contraire ne donne pas l'impression d'être un tutoriel exhaustif…

Merci d'avance pour vos retours,

+8 -0

Je suis en plein dans ce domaine en ce moment, et je cois que je viens de trouver le tutoriel que je cherchais. Bravo, et Merci !

Puisque tu veux des retours, voici le premier 'pépin' que j'ai trouvé :

  • Dans le chapitre sur les décompositions en valeurs Singulières … à un moment, on voit apparaître l'acronyme SVD. En principe, il aurait fallu faire comme tu as fait comme pour l'ACP par exemple : La première fois que tu utilises l'acronyme, c'est en doublon avec la formulation longue, entre parenthèses, puis ensuite, tu peux utiliser l'acronyme seul.

  • Et 2 ou 3 fautes d'orthographe un peu plus loin … ( et définiT une méthode ).

Et c'est le SEUL reproche que j'ai ! Autant dire rien.

Bon, il y a peut-être des critiques plus sérieuses, mais personnellement, j'ai trouvé des confirmations de ce que je savais, et des éclaircissements sur des aspects que je n'avais pas approfondis suffisamment. Que du bonheur.

+0 -0

Commençons-donc les remarques :

Introduction

La première partie est accessible à tous.

Il est tout de même préférable de connaître les notions d'espace vectoriel et de produit scalaire. ^^

La recherche d'information vectorielle - La sémantique vectorielle

Le modèle vectoriel

L'une des spécificités de la recherche d'information est d'être sans cesse soumise à l'appréciation de l'utilisateur qui, même s'il ne sait pas toujours ce qu'il recherche, pense être en mesure de juger la pertinence des résultats…

Je ne suis pas sûr de comprendre l'objectif de cette phrase.

Vous avez à votre disposition un tas de documents et une requête, pour laquelle vous devez renvoyer la liste des documents les plus pertinents. Idéalement, vous aimeriez que votre moteur de recherche raisonne comme vous.

La deuxième phrase m'a un peu embrouillé, puisqu'elle permute le point de vue : on ne sait plus trop si on est celui qui traite la requête ou celui qui l'effectue auprès de son moteur de recherche.

La similarité cosinus

plus l'angle formé par les deux vecteurs qui les représentent est faible, plus les documents sont similaires.

Il me semble intéressant de parler de valeur absolue d'angle, histoire d'indiquer que le "côté" n'a pas d'importance, seule la "proximité" en a.

Par exemple, la similarité cosinus ne s'intéressant qu'à l'angle, on peut « étirer » les vecteurs sans changer leur similarité.

Tu pourrais expliquer qualitativement ce à quoi reviendrait d'étirer un vecteur (par exemple, si on considère le nombre d'occurrences, ça revient à ajouter un mot de chaque type au document).

Si on mesurait une distance, ce problème se limiterait à un cercle.

"ce problème" n'est pas très clair vu que tu parles juste avant d'étirer les vecteurs. Tu pourrais dire qu'avec une telle mesure, tous les vecteurs "sur" un même cercle seraient considérés identiques.

En pratique, le nombre élevé de documents et de dimensions que l'on manipulera pourrait masquer une partie de ces effets localisés

J'ai un peu buté là-dessus. Peut-être pourrais-tu reformuler en un truc du genre "pourrait masquer une partie de ces biais".


Ca demanderait probablement beaucoup de travail, mais tu pourrais donner un exemple d'analyse d'un problème pour déterminer la "bonne" mesure. Là, on comprend qu'il peut y avoir des problèmes, mais on ignore un peu comment les résoudre.

Une méthode de pondération : TF-IDF

Partant du constat qu'il était peu judicieux de considérer uniquement la fréquence d'un mot lors du calcul de son poids

Tu pourrais préciser "uniquement la fréquence d'un mot dans le document". Là, j'ai cru que tu désignais sa fréquence de manière générale ("grand" est plus fréquent que "Napoléon"), ce qui donne à la phrase le sens contraire de celui qu'elle a (on voudrait justement ne pas considérer que la fréquence dans le document, mais aussi de manière générale).

Afin que les documents puissent être comparables quelle que soit leur longueur (qui est loin d'être toujours un bon critère de pertinence)

La parenthèse veut-elle bien dire qu'il est rarement judicieux de vouloir comparer deux documents de longueurs très différentes ?

Un exemple concret

Nos trois extraits proviennent de ce corpus et notre but est de déterminer quel document est le plus pertinent pour la requête R.

La transition avec la liste est un peu étrange. Tu pourrais faire un truc du genre :

Nos trois extraits proviennent de ce corpus, comportant :

  • A ;
  • B ;
  • C.

Notre but est de déterminer quel document est le plus pertinent pour la requête R « Le crime de Julien était un crime, un crime affreux ».

mais puisque l'on ne s'intéresse qu'aux angles, cela n'a pas beaucoup d'importance :

Même aucune, non ? ^^

Alors que la première méthode jugeait que le document A était le plus pertinent, la pondération TF-IDF bouscule la hiérarchie et favorise, de loin, le document B.

Comment peut-on vérifier quelle méthode est la meilleure ici ?


Merci beaucoup pour ce très bon tutoriel. Je poursuis ma relecture un de ces quatre. :)

PS : je n'ai pas relevé les très rares fautes d'orthographe, ni celles typographiques.

+0 -0

Salut, j'ai (à peut pret) fini de lire.

C'était très sympa bien que n'aimant pas du tout les statistiques la deuxième partie était moins plaisante.

J'étais aussi peut être pas assez dedans à ce moment la mais je trouve le lien entre la première partie et la deuxième pas forcement assez clair. Est ce que c'est une autre façon de faire ou un complément ? Et si c'est un complément comment/où est ce qu'il se place par rapport au reste ?

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte