Pertinence d'un moteur de recherche

vinc', samedi 27 décembre 2014 à 16h34

Bonjour,
tout d'abord je ne sais pas si j'ai posté dans le bon forum, si ce n'est pas le cas je m'en excuse !

Juste avant d'entrer dans le vif du sujet, je suis actuellement en deuxième année de classe préparatoire (MP) et pour la fin de l'année, j'ai une présentation orale (TIPE ) à effectuer devant un jury. Le sujet que j'ai choisi se rapporte aux moteurs de recherche, principalement leur fonctionnement. Dans ce cadre, j'ai donc réalisé en Python un algorithme semblable à celui d'un moteur de recherche, et j'aurais besoin de tester la pertinence des résultats qu'il renvoie sur des recherches "type".

Et pour vérifier une telle chose, quoi de mieux que de demander aux gens ce qu'eux-mêmes auraient répondu ?, me suis-je dit. Je vous propose donc de vous rendre à l'adresse http://tipepagerank.chez.com/ et de répondre aux cinq questions proposées afin de m'aider ! Dans l'idéal, j'aimerais obtenir un maximum de réponse afin de pouvoir appliquer la loi des grands nombres, mais je n'ai actuellement recueilli que 35 réponses… Autant dire que pour la loi des grands nombres, c'est pas encore ça.

Je vous remercie d'avance et vous souhaite de joyeuses fêtes de fin d'année.

Vinc'

27/12/14 à 16h34

+0 -0

FeaturettesAffect, dimanche 28 décembre 2014 à 14h16

A voté Par contre je pense qu'il y aura un biais dans les réponses : on a tendance à favoriser comme choix n°1 celui qui est le plus haut dans la liste, donc dans l'alphabet (on n'a pas forcément envie de lire toutes les propositions de haut en bas avant de faire son choix).

28/12/14 à 14h16

+0 -0

artragis, dimanche 28 décembre 2014 à 14h35

A voté aussi, une distribution aléatoire des propositions aurait été meilleure mais c'est déjà pas mal.

28/12/14 à 14h35

+0 -0

vinc', lundi 29 décembre 2014 à 11h55

Merci à vous. C'est vrai que je ne me rends pas compte de ce genre de biais, je vais essayer d'arranger ça alors.

29/12/14 à 11h55

+0 -0

Moté, lundi 29 décembre 2014 à 12h05

A voté

29/12/14 à 12h05

Avant je m’appelais Phigger - La vie, c’est comme les mirabelles - Si vous ne deviez lire qu’un seul de mes articles - PetitMote.fr

+0 -0

vinc', lundi 29 décembre 2014 à 12h13

Voilà, j'ai ajouté un peu d'aléatoire partout pour parer au problème.
Merci du retour !

29/12/14 à 12h13

+0 -0

FeaturettesAffect, lundi 29 décembre 2014 à 12h42
Modifié

J'ai deux questions sur ce TIPE :

Quel est le thème de cette année ?
À quoi te servent nos résultats, comment vas-tu les utiliser ? Quelle est la finalité du TIPE ? Coder un moteur de recherche ?

29/12/14 à 12h42
Modifié

+0 -0

vinc', lundi 29 décembre 2014 à 12h52

Le thème des TIPE de cette année est "Ressources : partage, répartition, distribution". Donc le moteur de recherche rentre dans le cadre étant donné qu'il liste les ressources dispo sur le web et permet son partage et sa distribution par la suite… De toute façon on peut toujours trouver un moyen de s'y ramener, d'une façon ou d'une autre !
J'ai déjà codé un moteur de recherche en Python (un moteur très basique quand même, faut pas exagérer ) et j'ai constitué un ensemble de 50 pages web en local pour pouvoir tester le fonctionnement de mon moteur de recherche fait maison. Il semble apparemment donner des réponses correctes, mais je ne peux pas l'affirmer tout seul sans avoir de données sur lesquelles me baser. L'intérêt du sondage est justement de me fournir ces données comparatives en demandant aux gens ce qu'ils répondraient s'ils étaient des moteurs de recherche en quelque sorte. Ainsi, je pourrai comparer les réponses du peuple avec les réponses de l'algorithme et voir si oui ou non les réponses sont celles que les gens s'attendent à obtenir.

29/12/14 à 12h52

+0 -0

Graphox, lundi 29 décembre 2014 à 14h07

Salut,

Il faut se méfier de ce genre d'approche, ou en tout cas ne pas être déçu de la qualité des résultats. En effet, il y a plusieurs failles :

On se fie aux énoncés des requêtes et aux titres des articles en projetant nos connaissances alors que le contenu des articles peut être tout autre — ou du moins, le vocabulaire utilisé et les connexions peuvent être différents de ceux que l'on attendait. Des exemples :
1. Pour la recherche « le big bang » : l'article « Explosion » ne contient aucune occurrence de « big bang » (par contre, l'article « Big bang » contient des occurrences d'« explosion »…).
2. Pour « les missions spatiales de la NASA », on ne s'attend pas spécialement à ce que l'article « Fusée » contienne aucune occurrence de « NASA » alors que « Sonde spatiale » en contient 16.
3. Pour « la menace des météorites » : l'article « Vie extraterrestre » contient 5 occurrences de « météorite », 1 de « menace » alors que l'article « Astéroïde » en contient respectivement 3 et 1 et j'imagine qu'il arrive donc derrière.
Certaines pages sont très pauvres en contenu. Par exemple : Cosmos, Recherche, Particule (dans une moindre mesure), Scintillement… Certaines sont des pages d'homonymies, courantes sur Wikipédia. Le fait que le contexte du sondage soit très ciblé n'aide pas à s'en détacher et à envisager ces cas problématiques, et on revient au premier problème.

Tout ça pour dire qu'il serait sans doute préférable de nous donner un aperçu de ton algorithme et de nous en proposer plusieurs versions afin que l'on puisse comparer leurs résultats. En quelque sorte, inverser les rôles en rabaissant l'utilisateur à celui de juge et non pas de modèle.

L'intérêt du sondage est justement de me fournir ces données comparatives en demandant aux gens ce qu'ils répondraient s'ils étaient des moteurs de recherche en quelque sorte.

Si la seule source de connaissances se limite aux 50 articles, il n'y a rien qui pourrait, mathématiquement, me permettre d'associer « big bang » à « explosion » ou m'inciter à placer « astéroïde » avant « vie extraterrestre » pour « la menace des météorites ».

Tu pourrais toujours t'arranger pour trouver la formule magique qui permette à ton algorithme de coller à nos prévisions, mais ce serait pertinent pour les 50 articles et les 5 requêtes proposées, mais bancal pour le reste. Pour moi, il faudrait plutôt voir le problème comme le choix de l'algorithme le « moins pire », même si c'est peu représentatif avec si peu de données.

29/12/14 à 14h07

+2 -0

vinc', lundi 29 décembre 2014 à 14h42

Bonjour à toi, Graphox !

Je vais tenter de répondre à chacune de tes remarques, merci en tout cas du temps pris pour m'écrire tout cela !

1) Concernant le premier point, je sais bien que les gens ont tendance à répondre en se basant uniquement sur le titre des pages, et non leur contenu. Cependant, il est stipulé sur le site :

On précise pour cela qu'il convient de survoler les pages de façon plus ou moins approfondie en cliquant sur les cases du tableau ci-dessus afin d'en apprécier la pertinence.

Bien évidemment, je me rends compte qu'il n'est pas possible de demander à un certain nombre de gens de lire le contenu des 50 pages, cela prendrait bien trop de temps ! Mais s'ils prenaient juste le temps de vérifier avant de mettre une page que son contenu colle avec la recherche, ça serait pas mal.
Les quelques cas ambigus que tu as recensés sont un peu "faits exprès", car la finalité lors de la présentation du TIPE est non seulement d'avoir travaillé sur un moteur de recherche, mais aussi de pouvoir remettre en cause les résultats obtenus. Les problèmes que tu as soulevés font donc partie de ces biais qui font que le sondage n'est pas aussi performant que l'on pourrait l'espérer.

2) Quant au second point, c'est aussi voulu que certaines pages n'aient qu'un contenu restreint, pour les raisons citées précédemment.

3) En revanche, je n'ai pas compris ce que tu voulais dire dans tes deux derniers paragraphes…
Une remarque que m'a fait mon professeur référent d'ailleurs : "Un moteur de recherche performant est-il un moteur qui donne comme réponse des pages auxquelles on s'attend, ou au contraire un moteur qui mettra parmi les résultats des pages auxquelles nous n'aurions pas pensé nous-mêmes, et nous permet donc de découvrir de nouvelles choses ?". Je pense qu'il a raison dans le sens où parfois, par un heureux hasard on tombe sur un truc auquel on n'aurait jamais pensé en effectuant une recherche, et c'est assez intéressant pour qu'on ait envie d'en savoir plus ensuite. C'est aussi un moyen d'étendre ses connaissances, en laissant un peu de place à l'imprévu ! Enfin là ça peut partir dans des considérations très philosophiques, donc je vais m'arrêter !

Pour conclure, concernant les "failles" que tu as soulevées, elles sont connues et exploitées dans le TIPE. Par contre, j'attends quelques explications sur tes derniers paragraphes car je ne peux pas y répondre étant donné que je n'ai pas compris ce que tu voulais dire.

29/12/14 à 14h42

+0 -0

FeaturettesAffect, lundi 29 décembre 2014 à 17h12

Merci de tes réponses vinc', c'est très intéressant. Tu t'es basé sur des articles/tutoriels existants pour le développement de ton moteur, ou tu as fait ça à partir de rien ?

29/12/14 à 17h12

+0 -0

vinc', lundi 29 décembre 2014 à 17h31

À l'origine, j'ai commencé à travailler sur le Pagerank (d'où le nom du site du sondage d'ailleurs). Donc j'ai commencé par lire un article de Michael Eisermann, trouvé sur internet, et j'ai voulu recréer en Python l'algorithme décrit dans l'article. Mais au fur et à mesure de mon travail, j'ai finalement préféré opter pour une problématique plus générale afin de travailler sur les moteurs de recherche dans l'ensemble. Et mon algorithme s'est alors écarté de l'algorithme du Pagerank pour aboutir à l'actuel.

Donc en fait l'algorithme a pour racine un algorithme de Michael Eisermann, mais il n'y ressemble plus tellement à présent car je l'ai énormément modifié par la suite .

29/12/14 à 17h31

+2 -0

Graphox, lundi 29 décembre 2014 à 19h09

En revanche, je n'ai pas compris ce que tu voulais dire dans tes deux derniers paragraphes…

Je voulais dire qu'à mon avis, il serait plus intéressant pour toi de confronter plusieurs versions de ton algorithme (en faisant varier un paramètre par exemple) en nous proposant différentes séries de résultats et en nous demandant de les juger. Même si cela ne change rien au fait que l'on est biaisé par le titre vs. le contenu des articles, c'est une démarche plus naturelle : lorsque l'on utilise un moteur de recherche, il est difficile de prévoir quels résultats vont être renvoyés, alors que l'on est souvent capable de juger la qualité des résultats a posteriori.

C'est juste pour dire que sans contexte, sans savoir comment c'est implémenté (il y a 36 manières de le faire), je ne vois pas comment ce sondage peut t'être utile. Sur un corpus de 50 articles, remettre en cause la pertinence d'un moteur de recherche en se basant sur des jugements sans doute moins pertinents n'aurait pas de sens. Il faudrait au moins avoir une idée des critères, de leur importance relative dans le programme, et avoir un aperçu des résultats.

29/12/14 à 19h09

+1 -0

anonyme, mercredi 31 décembre 2014 à 11h12

les quelques cas ambigus que tu as recensés sont un peu "faits exprès", car la finalité lors de la présentation du TIPE est non seulement d'avoir travaillé sur un moteur de recherche, mais aussi de pouvoir remettre en cause les résultats obtenus. Les problèmes que tu as soulevés font donc partie de ces biais qui font que le sondage n'est pas aussi performant que l'on pourrait l'espérer.

Le problème, c'est aussi que tu demandes un avis aux gens sur un domaine qu'ils ne connaissent pas (ou peu). Typiquement, le Big Bang dans la tête de beaucoup de personnes, c'est une explosion. Rien n'est plus faux sur le plan scientifique, il y a donc des chances pour que le classement proposé par les votants ne soit pas pertinent alors que le résultat de ton moteur l'est (si la page explosion de Wikipédia n'apparait pas dans les résultats pour la requête Big Bang, c'est très bien par exemple, même si c'est peut être à l'opposé du résultat du sondage).

31/12/14 à 11h12

+0 -0

Venez répondre à un petit sondage pour permettre de vérifier la pertinence des réponses proposées par un moteur de recherche !

Pas encore membre ?