Bonjour @elegance,
Merci pour ta réponse.
Edit important : il faut bien avoir en tête qu’il peut y avoir plusieurs tendances de vote pour une même photo (une tendance disant "cette photo est très lumineuse et très contrastée", une autre "cette photo est moyennement lumineuse et moyennement constratée"). Ainsi, il faut bien prendre en compte ces tendances (= ces "clusters"). Et pour dire que tel ou tel vote est "anormal" (= fait à la va vite ou bien fait volontairement pour fausser le système), il faut donc bien qu’il soit à l’écart de toute tendance. (bien sûr, l’indice de confiance utilise ça mais pas que ça, je vérifie d’autres paramètres, cf. mes messages précédents et même la suite de ce message).
Tu veux dire que la probabilité que les réponses se ressemblent est assez élevée puisque le nombre de choix possibles par question, et le nombre de questions, sont tous deux peu élevés. Et donc qu’il y aura peu de chances d’obtenir des clusters.
Je ne suis pas forcément d’accord. En tenant compte de la subjectivité, il me semble possible, pour une photo donnée, d’avoir beaucoup d’avis la trouvant très lumineuse voire au pire moyennement lumineuse ainsi que très contrastée voire au pire moyennement contrastée. Nous obtenons donc deux clusters. Toute réponse disant que la photo est terne et pas du tout contrastée sera alors considérée comme "à la marge", donc ce sera un vote non pertinent.
Au bout d’un certain nombre de votes et jusqu’à l’infini, on aura toujours en très grande majorité des votes lumineuse+contrastée, et toujours en très faible minorité des votes ternes+non-contrastée.
Je suis cependant un peu d’accord sur l’interrogation que tu as eue, et que j’ai eue également au début et que tu as décrite dans ton point. Mais vraiment, je ne pense pas que ce soit un problème concrètement. A tout hasard, connaitrais-tu une autre façon de déterminer que tel ou tel vote est statistiquement à la marge par rapport aux autres ?
J’ai besoin d’identifier les votes faits à la va-vite ou volontairement faux. Par ailleurs, et de manière indépendante de ce que je viens de te dire, l’indice de confiance du vote pour une photo donnée tient compte de mon système de clustering, mais aussi du temps passé sur la photo, de l’éventuelle présence d’un commentaire en saisie libre, de la taille de ce dernier, et aussi de, pour une même donnée présentée plusieurs fois au voteur, si ce dernier a changé du tout au tout sa notation de vote en vote pour cette même photo (ce qui prouve qu’il vote au hasard).
- Hors-cluster = non-fiable : bof.
ça me semble statistiquement pertinent, cf ci-dessus.
As-tu d’autres solutions ?
Hors cluster = début d’un nouveau cluster : bof. Les techniques de clusterisation sont sensibles. A partir de 50 points, si on ajoute 3 ou 4 points, il se peut que les clusters obtenus bougent de façon significative. Des points qui étaient hors clusters deviennent centres-de-clusters, et inversement.
En effet, je pense que le centre des clusters bouge si on ajoute des points, donc le calcul du cluster risque de faire entrer des points qui étaient hors-clusters. Je pense que c’est ce que tu as voulu dire.
-
Cependant, plus le nombre de votes est grand, plus la précision des clusters sera grande, et plus les votes qu’on sait "faux" resteront, ou redeviendront, "faux" du point de vue du clustering, tout simplement parce qu’ils restent minoritaires et que les autres, "corrects", resteront majoritaires.
-
Il est normal que les clusters évoluent au cours du temps (ie au cours de l’augmentation du nombre de votes) : c’est une forme d' "apprentissage" et c’est ce que je veux.
Avant de chercher à 'positionner' les points nouveaux par rapport aux clusters , je t’invite à :
Vérifier si les clusters obtenus font sens.
Vérifier si les clusters obtenus sont stables quand on ajoute quelques points.
Impossible.
Le système dont j’ai besoin doit pouvoir s’exécuter en parfaite autonomie. Tout simplement parce que le nombre de photos, les votes, les voteursu, sont totalement dynamiques, je n’ai pas la main sur leur création, etc. Il s’agit d’un site Web avec des comptes utilisateurs créables et utilisables par des internautes comme toi et moi, pouvant voter et soumettre des photos à des votes.