Commençons-donc les remarques :
Introduction
La première partie est accessible à tous.
Il est tout de même préférable de connaître les notions d'espace vectoriel et de produit scalaire.
La recherche d'information vectorielle - La sémantique vectorielle
Le modèle vectoriel
L'une des spécificités de la recherche d'information est d'être sans cesse soumise à l'appréciation de l'utilisateur qui, même s'il ne sait pas toujours ce qu'il recherche, pense être en mesure de juger la pertinence des résultats…
Je ne suis pas sûr de comprendre l'objectif de cette phrase.
Vous avez à votre disposition un tas de documents et une requête, pour laquelle vous devez renvoyer la liste des documents les plus pertinents. Idéalement, vous aimeriez que votre moteur de recherche raisonne comme vous.
La deuxième phrase m'a un peu embrouillé, puisqu'elle permute le point de vue : on ne sait plus trop si on est celui qui traite la requête ou celui qui l'effectue auprès de son moteur de recherche.
La similarité cosinus
plus l'angle formé par les deux vecteurs qui les représentent est faible, plus les documents sont similaires.
Il me semble intéressant de parler de valeur absolue d'angle, histoire d'indiquer que le "côté" n'a pas d'importance, seule la "proximité" en a.
Par exemple, la similarité cosinus ne s'intéressant qu'à l'angle, on peut « étirer » les vecteurs sans changer leur similarité.
Tu pourrais expliquer qualitativement ce à quoi reviendrait d'étirer un vecteur (par exemple, si on considère le nombre d'occurrences, ça revient à ajouter un mot de chaque type au document).
Si on mesurait une distance, ce problème se limiterait à un cercle.
"ce problème" n'est pas très clair vu que tu parles juste avant d'étirer les vecteurs. Tu pourrais dire qu'avec une telle mesure, tous les vecteurs "sur" un même cercle seraient considérés identiques.
En pratique, le nombre élevé de documents et de dimensions que l'on manipulera pourrait masquer une partie de ces effets localisés
J'ai un peu buté là-dessus. Peut-être pourrais-tu reformuler en un truc du genre "pourrait masquer une partie de ces biais".
Ca demanderait probablement beaucoup de travail, mais tu pourrais donner un exemple d'analyse d'un problème pour déterminer la "bonne" mesure. Là, on comprend qu'il peut y avoir des problèmes, mais on ignore un peu comment les résoudre.
Une méthode de pondération : TF-IDF
Partant du constat qu'il était peu judicieux de considérer uniquement la fréquence d'un mot lors du calcul de son poids
Tu pourrais préciser "uniquement la fréquence d'un mot dans le document". Là, j'ai cru que tu désignais sa fréquence de manière générale ("grand" est plus fréquent que "Napoléon"), ce qui donne à la phrase le sens contraire de celui qu'elle a (on voudrait justement ne pas considérer que la fréquence dans le document, mais aussi de manière générale).
Afin que les documents puissent être comparables quelle que soit leur longueur (qui est loin d'être toujours un bon critère de pertinence)
La parenthèse veut-elle bien dire qu'il est rarement judicieux de vouloir comparer deux documents de longueurs très différentes ?
Un exemple concret
Nos trois extraits proviennent de ce corpus et notre but est de déterminer quel document est le plus pertinent pour la requête R.
La transition avec la liste est un peu étrange. Tu pourrais faire un truc du genre :
Nos trois extraits proviennent de ce corpus, comportant :
Notre but est de déterminer quel document est le plus pertinent pour la requête R « Le crime de Julien était un crime, un crime affreux ».
mais puisque l'on ne s'intéresse qu'aux angles, cela n'a pas beaucoup d'importance :
Même aucune, non ?
Alors que la première méthode jugeait que le document A était le plus pertinent, la pondération TF-IDF bouscule la hiérarchie et favorise, de loin, le document B.
Comment peut-on vérifier quelle méthode est la meilleure ici ?
Merci beaucoup pour ce très bon tutoriel. Je poursuis ma relecture un de ces quatre.
PS : je n'ai pas relevé les très rares fautes d'orthographe, ni celles typographiques.