Oui, clairement.
Apres, au niveau individuel, comme chercheur ethique (j’entends par la qui veut trouver des choses utiles et en le faisant correctement), a defaut de pouvoir changer de methode, cela veut dire que j’ai un compromis a trouver: une taille d’echantillon surtout pas trop petite, mais pas trop grande non plus, sachant qu’on prend moins de risque de dire des trucs faux avec un large echantillon.
Par contre, au niveau collectif, il se passe quelque chose d’interessant: imaginons que chacun fasses des experiences de singe savant (grosso modo ce que je dis plus haut: tirer une piece 10000 fois). Au bout d’un moment, comme on ne publie pas les resultats negatifs, quelqu’un va trouver une sequence faite uniquement de piles, trouver que c’est magique, publier et tout le monde va applaudir. Les meta-etudes permettent un peu de corriger ce biais mais pas entierement.
Je me permet de raconter deux anecdotes dans mon domaine de recherche.
1) Dans chacun des papiers que je publie, je dois donner les resultats d’"accuracy" de mes modeles. Au debut, je ne le mettais pas et je donnais d’autres metriques dont on a prouve mathematiquement qu’elle est superieure dans tous les cas. Refuses a chaque fois par les reviewers. Maintenant, je la mets en plus pour pouvoir "comparer" et surtout publier meme si elle n’a aucun sens. C’est un peu la p-value de l’IA.
2) La methode standard dans le domaine c’est une (10-fold) cross-validation, on regarde ensuite la valeur moyenne des indicateurs par exemple la fameuse accuracy et leur variance. Ce n’est pas une procedure robuste du tout en soit. Avec la majorite des algorithmes existants, il suffit de modifier la maniere dont on decoupe les donnees pour faire grandement varier les resultats, bien plus que la variance obtenus par la cross-validation. De sorte que bon nombre de chercheurs relancent 10, 100, 1000 leurs experiences et gardent le meilleur resultat (ce qui consiste a faire le singe savant et garder la meilleure sequence). Comme on ne demande que les resultats de la cross-validation, personne ne peut rien y voir a redire.
Si tu es a l’aise avec Python, tu peux faire ca tres rapidemment avec scikit-learn et sur les jeux de donnees fournis par default et voir ca par toi meme.
Face a ce constat, je dis qu’il faut publier moins mais mieux: refaire nos experiences de cross-validation 10 fois par exemple pour vraiment reduire les effets aleatoires structurels.
Mais Raoult dans ce cas dirait: la methode c’est caca, je vais plus faire de cross-validation du tout.