@gbdivers
Ton calcul est équivalent au mien et arrive essentiellement au même résultat que le mien (tu utilises une probabilité légèrement différente). Pour Waymo+Uber (8 million de miles), la p-valeur de 0.095 correspond à une probabilité de 9.5% et j’en ai conclu que l’on ne peut pas rejeter l’hypothèse nulle (même probabilité). Pour Uber seul (3 million de miles), la p-valeur est 0.037 ce qui est suffisant pour rejeter l’hypothèse nulle pour $\alpha = 0.05$.
J’applique très exactement le test binomial qui est un test statistique parfaitement valide. Au passage, dire qu’il n’y a qu’une seul observation est simplement complètement faux: il y a 8e6 observations, dont une positive.
Et je ne suis pas d’accord avec le fait que l’on ne doit pas faire de stats avec 1 seule mesure. C’est une affirmation fausse qui provient de deux raisons:
- La majorité des tests statistiques couramment utilisés ne sont valables que sous l’hypothèse que tu as assez d’observations. Ce n’est pas le cas du test binomial qui est un test exacte (il est valable quel que soit la taille de l’échantillon observé).
- Dans la majorité des cas, les tests statistiques ne sont pas concluant lorsque l’on n’a pas assez d’observations.
Par exemple, imagine que quelqu’un viens de créé une nouvelle loterie et te dis qu’il y a seulement une chance sur un milliard de gagner. Tu joues alors une fois et gagne. Tu as là une seul observation, et pourtant il serait raisonnable de penser que les chances de gagner sont bien supérieur à une chance sur un milliard.
Au passage, je suppose depuis le départ que l’on découpe les trajets en miles, mais il est possible de refaire le même calcul en faisant tendre la distance de discrétisation vers 0 pour s’assurer que la discrétisation ne change pas la valeur réelle. En découpant par section de $x$ miles, on a la p-valeur qui est égale à $P(X > 0)$ avec $X \sim B(n/x, p\times x)$ ($n$ étant la distance de 3e6 miles et $p$ la probabilité pour un mile de 1.25e-8), qui est égale à $1 - P(X = 0)$ avec la même distribution pour X. En continuant, on a $p = 1 - {n/x \choose 0}\times (px)^0\times (1-px)^{n/x}$. En faisant tendre x vers 0, on obtiens $p = 1 - e^{-np} = 1 - e^{-3e6\times1.25e-8} = \sim0.0368$. Le résultat est en gros le même que celui que j’ai obtenu avec la discrétisation, donc ce n’était pas une grosse approximation.
@Maeldun
1) Pour les voitures avec conducteur, j’aurais tendance à dire que les miles parcouru sont relativement indépendants. En prenant deux miles aléatoires dans tous les miles parcouru aux États-Unis en une année (données que l’on utilise), quelles sont les chances pour que ces deux miles ne soient pas indépendants? Un mile aura une influence notable uniquement sur les miles locaux (d’un point de vue temporel et spatial).
2) Les véhicules (voitures et camions) parcours dans les 3e12 miles par ans aux États-Unis et font dans les 30000 à 40000 morts par ans. Dans mon calcul, j’ai supposé que l’écart-type était assez faible pour ne pas influencer le résultat de manière significative. En estimant que la valeur réelle est dans les +/- 30% de la valeur utilisé (qui est déjà haute en comparaison des données des dernières années) et dans le pire des cas pour notre test (probabilité 30% plus grande pour les voitures classiques), on obtiens une p-valeur dans les 0.05. Même si cette estimation n’est pas parfaite, ça donne une idée de l’influence possible de l’approximation utilisé
3) Dans le cas où un des n est largement supérieur à l’autre, est-ce qu’utiliser un test de comparaison de deux échantillons est vraiment différent que de supposer que le plus grand échantillon est en fait la distribution réelle? C’est pas une question rhétorique, ça m’intéresse vraiment de savoir à quel point cette simplification affecte le résultat final.
4) Tout à fait d’accord sur ce point. Est-ce qu’il y a un moyen de corriger pour ce facteur (autre que de faire tout plein de simulations pour estimer la distribution de distribution d’Uber en utilisant le même facteur d’arrêt)?
5) En soit, je n’aurais pas dû faire le test Waymo+Uber vu qu’à priori ils ont des distributions différentes (pas d’un point de vue des observations, mais d’un point de vue des connaissances empiriques). Et je n’ai pas fait le test pour Uber seul uniquement parce que je n’étais pas satisfait (mon premier calcul était complètement à côté de la plaque de toute façon). Le test pour vérifier si Waymo est moins sûr que les voitures classiques ne conclu à rien d’intéressant et c’est normal vu que l’observation jusqu’à présent correspond bien à celle des voitures classiques (peu de morts). Je suis tout à fait d’accord sur le fait que l’on va avoir besoin de beaucoup plus de données pour faire la moindre conclusion sur le fait que les voitures autonomes sont plus sûr que les voitures classiques (même d’un facteur infime).
Si l’on veut faire un meilleur test (en gardant des distributions binomiales), il faudrait corriger la distribution pour Uber par rapport au critère d’arrêt des observations et utiliser un test pour comparer deux observations. N’est-il pas possible de faire les deux en utilisant des simulations? Pour le critère d’arrêt, on peut calculer pour chaque probabilité (taux de mort) la distribution du moment d’arrêt et en déduire la distribution de ces probabilités en sachant que l’on s’est arrêté à la 3e6 ème observation. Ça devrait permettre ensuite d’intégrer l’incertitude causé par le critère d’arrêt dans le test final qui compare les deux distributions. Si ça semble valide, je veux bien passer un peu de temps à écrire un programme qui va essayer d’estimer le résultat.