Voitures autonomes et sécurité

Et si la voiture autonome était plus dangereuse que les conducteurs humains ?

La plupart du temps un des arguments majeur en faveur de la voiture autonome serait sa plus grande sécurité par rapport au conducteur humain. Une google car n’est jamais fatiguée, vois dans le noire, réagit bien plus vite qu’un humain etc.

Je viens de tomber sur cet article du financial time qui compare le nombre d’accidents par miles des voitures autonomes et des voitures traditionnelles, et qui montre qu’en l’état actuelle ces dernières sont bien plus performantes en réalité.

https://www.ft.com/content/305829b8-2e4b-11e8-9b4b-bc4b9f08f381

Je trouve cela surprenant car intuitivement j’aurai justement pensé le contraire, dans le lignée des arguments en faveur de la voiture autonome. Que pensez-vous de ces chiffres ? Pensez vous que cela est normal et dû à la phase d’apprentissage ? Que la comparaison est injuste car les voitures autonomes roulent beaucoup en ville où les accidents sont plus fréquents que sur les autoroutes ?

(Source logo : Wikipédia)



17 commentaires

Salut, je n’ai pas lu l’article car il faut s’inscrire pour ça mais je peux parler de ma (petite) expérience sur les voiture autonome. J’ai en effet eu l’occasion de travailler 6 mois sur un prototype pendant mes étude. Ce prototype était assurément moins performant que voitures roulant actuellement cepandant, j’ai pu remarquer certaines choses.

Premièrement, la reconnaissance visuelle état très limitée. En effet, on n’est pas capable de créer de caméra s’adaptant aussi bien à toutes les situations que notre oeil et la caméra embarqué dans notre prototype (sensée "simplement" détecter les piétons), si elle donnait des résultats relativement précis avec une bonne luminosité, ceux-ci n’étaient plus fiables passé une certaine luminosité (à peu près 17h en hiver) ou par temps de pluie. On n’utilise bien sûr d’autre capteurs mais aucun n’était capable de nous donner une telle vue d’ensemble.

Deuxièmement, nous utilisions une perception LIDAR pour l’environnement proche. Celui-ci étati beaucoup plus précis concernant la position des obstacles mais était incapable de diférentier les obstacles (nombre de point trop faibles par obstacle). De même, sa portée etait limitée à 25m pour des résultats intéressants.

Enfin, nous nous étions limité à l’étude d’un scénario extrêmement limité (circuit connu et détection d’un seul piéton aux abord d’un passage piéton) et déjà le sysème était extrêmement complexe.

Conclusion de mon expérience :

  • notre prototype était incapable d’avoir une vue d’ensemble de la situation autour de lui comme pourrait l’avoir un humain.
  • la detection visuelle est encore très limitée.
  • capacité à "improviser" limitée ou très difficile à mettre en place.

On parle très souvent des avantages de la voiture autonome d’une part parce que les industriels et les états vont dans ce sens d’autre part, on présente le cas ou toutes les voitures sont autonomes donc ou le nombre de situations imprévisibles sont grandements réduites.

PS : et je n’ai même pas parlé de la sécurité en terme informatique à savoir tentative de prise de contrôle du véhicule par des personnes malintentionnées.

+2 -0

J’ai pas accès à l’article non plus, donc il est difficile de se faire une idée sur la pertinence de l’étude…

Je me demande si il ne pourrait pas y avoir un biais statistique du fait du petit nombre d’accidents impliquant les voitures autonomes.

Par ailleurs, comment est définie une voiture autonome ? Est-ce qu’ils comptent aussi Tesla alors qu’ils vendent eux-même leur système comme n’étant pour l’instant qu’un assistant à la conduite (contrairement à Google par exemple) ?

+3 -0

C’est dommage que l’article oblige à se créer un compte, parce que j’aurais bien aimé le lire. Dans mon école, tous mes profs nous disent tout le temps que c’est trop bien, que c’est hyper sûr etc. Et j’ai pas non plus beaucoup entendu parler d’accidents de voitures autonomes, sans doute parce que ces accidents ont lieu lors des phases de tests ?

Après, il faut distinguer le cas de la voiture autonome, qui cohabite avec d’autres voitures non autonomes, et celui du parc qui est entièrement constitué de voitures autonomes. Mine de rien, le second est quand même plus safe (tant que les voitures fonctionnent et dialoguent comme elles le devraient, me direz vous :3 ). Bon après, se laisser conduire par des algorithmes de GAFAM, ça c’est un autre débat… :-°

Je pense qu’en cours, mes profs nous parlent surtout du deuxième cas, celui où le parc est entièrement automatisé.

+0 -0

Je n’ai pas non plus accès au contenu de l’article. En revanche, le nombre d’accidents fatals est connu (et public) pour les voitures autonomes et les voitures classiques. D’après Forbes, on est à environ 12.5 mort par milliard de miles parcouru. En comparaison, Waymo indique 5 million de miles de conduite sans accident et j’ai trouvé le chiffre de 3 million pour Uber sur le New York Times.

Avec ces chiffres, il semble facile de conclure que les voitures autonomes sont moins sûr que les voitures normales, même avec aussi peu de données. La probabilité d’avoir un mort en 8 million de miles en supposant que l’on suit la même distribution que celle des voitures classique est d’environ 0.00064 0.095. Cette probabilité correspond à la probabilité qu’un événement aussi extrême soit dû à "pas de chance" plutôt qu’à une fréquence d’accident fatal plus grande. En prenant Uber tout seul on arrive à 0.00024 0.037. C’est largement suffisant pour conclure que les voitures autonomes (en les prenant en tant qu’agrégat) sont à l’heure actuelle moins sûr que les voitures classiques. C’est suffisant pour dire que les voitures autonomes d’Uber soit moins sûr que les voitures classiques. Pour les voitures autonomes Waymo+Uber, il faudrait plus de données pour arriver à une conclusion.

Maintenant, la question est: est-ce que toutes les voitures autonomes sont comparables en terme de sécurité? Parmi les chiffres les plus regardés, il y a le nombre de miles parcouru par intervention manuelle. D’après Ars Technica, Uber est à environ 13 miles par intervention là où Waymo est à 5600 miles. Même si les chiffres ne sont pas forcément parfaitement comparable (voir l’article), ça reste un énorme fossé.

En extrapolant (à prendre avec des grosses pincettes), on a Waymo qui est 430 fois "plus sûr" que Uber. Donc on passe de 1 mort tous les 3 million de miles pour Uber à 1 mort tous les 1290 million de miles pour Waymo, ce qui est largement plus sûr (environ 16 fois) que les voitures classiques. Même si ce n’est pas très rigoureux, ça montre qu’avoir des voitures autonomes plus sûr que des voitures classiques n’est pas forcément improbable.

+0 -0

En faisant abstraction du fait que parler de probabilité avec tes calculs n’est pas correct, tu calcules une "probabilité" d’avoir un mort plus faible pour Uber (0.00024 < 0.00064) et tu en conclus que Uber est moins sûr qu’une voiture non autonome !?
Tu as dû rater un 0 en écrivant ou c’est moi qui ai raté quelque chose dans ton propos.

Salut,

J’ai l’impression qu’il y a beaucoup de tapage médiatique autour des voitures autonomes en ce moment. C’est une technologie en plein essor, mais pour l’instant on en est au stade du développement. Si ne n’est pas au point, c’est tout à fait normal.

On est dans le même tapage que les réseaux électriques intelligents : beaucoup de bruit, pas beaucoup d’impact au quotidien. Faisons un parallèle.

Actuellement, les voitures sont dans la phase « intelligence faible ». On dispose d’aides à la conduite, comme le freinage automatisé d’urgence. Pour le réseau électrique, cela correspond un peu au pilotage heures pleines/heures creuses du ballon d’eau chaude.

On est sur le développement de l’« intelligence qui fait rêver ». Pour les voitures, c’est la conduite autonome dans toutes les situations, qu’il pleuve, qu’il neige, qu’il vente, en ville, à la campagne… Pour les réseaux électriques, ce serait le pilotage automatisé de toutes les énergies, en temps réel, tarifs dynamiques et algorithme de prévision de production et de charge, résilience aux coupures, stockage décentralisé, optimisation des pertes et tout le toutim ! Pour l’instant, c’est l’affaire de prototypes et de démonstrateurs.

Et on voit le contraste avec le quotidien. Le summum de la conduite autonome dans la rue, c’est l’Audi A8 qui trouve des places de stationnement et se gare toute seule. Pour le réseau électrique, on a Linky, quelques compteurs plus évolués pour les enthousiastes et pas grand chose de plus. C’est pas très excitant…

Dans 10 ou 15 ans, on aura peut-être sur la route ce qu’on développe maintenant. En attendant, on est au sommet du cycle de la hype.

En faisant abstraction du fait que parler de probabilité avec tes calculs n’est pas correct, tu calcules une "probabilité" d’avoir un mort plus faible pour Uber (0.00024 < 0.00064) et tu en conclus que Uber est moins sûr qu’une voiture non autonome !?
Tu as dû rater un 0 en écrivant ou c’est moi qui ai raté quelque chose dans ton propos.

backmachine

Les chiffres étaient foireux (erreur de calcul) et mon explication de ce à quoi ces probabilités correspondent n’étais pas géniale non plus (j’ai édité mon post pour essayer de l’améliorer).

En faisant les choses de manière rigoureuses, on a l’hypothèse nulle que les voitures autonomes ont une probabilité de mort par miles $p=1.25\times 10^{-8}$ (12.5 morts par milliard de miles). L’hypothèse alternative étant que cette probabilité $p<1.25\times 10^{-8}$ (les voitures autonomes sont moins sûr que les voitures classiques).

On a 8 million d’observation et un seul mort. La p-valeur est ici la probabilité d’observer un événement au moins aussi extrême que celui observé. C’est à dire $P(x > 0)$ avec $P \sim Binomial(n = 8\times 10^6, p = 1.28\times 10^{-8})$. On obtiens alors une p-valeur de $0.095$. Pour Uber tout seul, on a une p-valeur de $0.037$. Pour les voitures autonomes en général (Waymo+Uber), on n’a pas assez de données pour rejeter l’hypothèse nulle avec une confiance de 95%. En revanche, on peut rejeter l’hypothèse nulle et accepter l’hypothèse alternative avec une confiance de 95% pour Uber tout seul.

J’espère cette fois que je n’ai pas d’erreur de calcul.

On a 8 million d’observation et un seul mort. […] J’espère cette fois que je n’ai pas d’erreur de calcul.

Berdes

Il y a une erreur de raisonnement au départ (a mon avis), ce qui rend le calcul faux.

Tu ne peux pas passer d’un événement unique à une probabilité. Ce chiffre n’est pas du tout la probabilité d’avoir un incident par distance parcouru.

Une analogie pour comprendre pourquoi ce raisonnement est incorrect. Imagine que tu veux connaître la probabilité qu’un dé à 6 faces donne le nombre 1. Tu tires plusieurs fois et tu obtiens un 1 lors du troisième lancé. Est-ce que tu peux en conclure que la valeur 1 à 33% de chance d’arriver ?

En plus, il faut ajouter qu’une probabilité n’est pas quelque chose de figé dans le temps. Tu peux avoir une probabilité X pendant une période (le taux d’accident), un événement quelconque (par exemple une correction des algos de la voiture) et une probabilité Y ensuite.

Il faut prendre beaucoup de précautions quand on fait de l’inférence, c’est a dire quand on essaie d’évaluer la probabilité d’un événement futur à partir des données statistiques passées.

A mon avis, il n’est pas du tout possible d’évaluer les risques statistiques pour le moment. La décision d’autoriser ou non les voitures autonomes ne peut se faire que sur d’autres critères.

+1 -0

Je n’utilise pas l’événement unique pour en déduire une probabilité. La probabilité que j’utilise est la probabilité d’avoir un mort lorsqu’une voiture conduite par un humain parcours 1 mile (et il y a largement assez de données pour avoir une idée précise de cette probabilité).

Le raisonnement que j’ai fait ensuite est un simple test statistique. Pour l’analogie du dé, ça correspondrait à vérifier si avoir la valeur 1 au troisième lancer est un événement probable dans le cas où le dé n’est pas pipé. Un test statistique prend toujours en compte le nombre d’observations pour calculer la p-valeur, ce qui permet de ne pas tirer de conclusions hâtives s’il n’y a pas assez de données.

Je te rejoins sur le fait que mon analyse n’est pas forcément prédictive sachant qu’il est largement plus probable pour les algorithmes de s’améliorer plutôt que d’empirer. En revanche, d’un point de vue statistique, on peut affirmer avec confiance que jusqu’à présent les voitures autonomes d’Uber ont été moins sûr que les voitures classiques, dans le sens que l’événement observé serait quelque chose d’improbable si elles étaient aussi sûr.

Pas pu lire l’article. Deux remarques que je crois pas avoir vues dans les commentaires (+1 au premier paragraphe d’Aabu !) :

  • Si cet article fait suite à l’accident d’Uber, on sait depuis que les véhicules autonomes d’Uber sont largement moins bien que leurs concurrents : Uber’s Self-Driving Cars Were Struggling Before Arizona Crash .
  • J’ai lu, mais je retrouve plus où, qu’il y a un consensus entre les constructeurs de voitures autonomes (US) qui consiste à ne pas vendre aux particuliers de véhicules autonomes avant qu’ils ne soient statistiquement 10 ou 100x (comme j’ai plus la source…) plus sûrs que des véhicules conduits par des humains. Le côté rassurant de ceci, pour moi, c’est qu’à 1:1 je me méfierais vraiment, à 10:1 ou 100:1, je commence à être plus convaincu*. Ça prendra encore quelques années évidemment, mais on est sur la bonne voie.

* Ouais je suis parfois rassuré de façon rationnelle. Par exemple savoir que l’avion est X fois moins dangereux que la voiture, je ne suis pas inquiet en avion.

+3 -0

@Berdes

Tu fais de mauvaises interprétations statistiques a mon avis, et ce que tu fais n’est pas un test statistique. Et tu ne peux pas du tout conclure, avec le peu d’information que l’on a sur la distribution statistique des voitures autonomes (c’est à dire qu’une seule mesure), qu’elles sont moins fiables. (Cela ne veut pas dire qu’elles sont plus fiables, juste qu’on ne peut rien conclure).

Je vais prendre le raisonnement inverse pour essayer de te montrer ca. Quelle est la probabilité qu’une voiture avec chauffeur (ou une voiture autonome avec la même probabilité d’accident) d’avoir 1 accident lors des 8e6 premiers miles ?

On a p=1.28e-8 d’avoir un accident, donc (1-1.28e-8) de ne pas avoir d’accident pour chaque miles. Et donc (1-1.28e-8)^8e6 d’avoir aucun accident sur les 8e6 miles. Cette valeur est 0.90266841175, soit environ 90%.

Donc environ 10% de chances d’avoir au moins 1 accident en parcourant 8e6 miles. 10% de chance qu’une voiture autonome (en supposant qu’elle est aussi sûre que la voiture avec chauffeur) a un accident en parcourant 8e6. Ca fait une grosse probabilité pour conclure que cela ne peut pas arriver.

Même si la voiture autonome est 10 fois plus sûre que la voiture avec chauffeur (p=1e-9), on aura 1% de chance environ d’avoir 1 accident lors de ces 8e6 miles.

Avoir 1 accident lors des 8e6 ne permet pas de conclure quoi que ce soit sur le risque d’accident des voitures autonomes. On ne fait pas des stats avec 1 seule mesure.

+0 -0

10% de chance qu’une voiture autonome (en supposant qu’elle est aussi sûre que la voiture avec chauffeur) a un accident en parcourant 8e6. Ca fait une grosse probabilité pour conclure que cela ne peut pas arriver.

Pour conclure que ça ne peut pas arriver, oui. C’est marrant parce qu’on parle de plus de 321 fois le tour du monde. Je fais n’importe quel trajet en voiture les yeux fermés si la voiture n’a que 10% de chance d’avoir un accident sur 321 tours du monde.

Mais comme tu le disais, ce 10% sur 321 tours du monde n’est pas un test statistique, j’attendrai pour fermer les yeux.

+0 -0

Ma petite contribution au débat :

1) il y a une très forte interdépendance des données (chaque mile parcouru ne peut pas être vu comme une expérience indépendante des autres miles parcourus), donc on ne peut normalement pas utiliser de loi binomiale.

2) je ne pense pas qu’on puisse dire qu’il est valide d’utiliser la probabilité de morts par mile comme ça. D’un point de vue plutôt bayésien, il y a une incertitude autour de cette probabilité (une distribution beta aurait son mode à 1.25e-8 environ pour 12.5 miles avec morts et 1 milliard de miles sans mort). D’un point de vue plus fréquentiste, quel est l’écart-type autour de cette moyenne de 12.5 morts par milliard de miles ? Utiliser une moyenne comme paramètre fixe sans idée de l’écart-type, c’est pas l’idéal.

Pour singer la situation, ça serait un peu comme si on avait 2 groupes expérimentaux à comparer, et qu’on récupérait la moyenne de l’un des deux pour faire un one sample t-test contre l’autre distribution, au lieu de faire un 2 sample t-test.

3) il y a une énorme différence entre les n des 2 échantillons (très relié au point 2 puisque dans une situation dichotomique comme celle-ci, c’est surtout la taille de l’échantillon qui fait changer l’écart-type / la certitude autour du paramètre)

4) La méthode de sélection des échantillons est hasardeuse et asymétrique (dans un cas une observation exhaustive sur une période temporelle, dans l’autre on s’arrête à la première occurrence de mort). Deux jeux de données prises avec des règles différents, ça réduit la validité du test.

Singeons encore une fois la situation : je prends 2 pièces. Je décide d’en lancer une pendant 10H, et je finis avec un échantillon de 10000, où j’ai eu 3 fois pile. Je prends ma deuxième pièce, et je décide de la lancer jusqu’à ce que je tombe sur pile. Je tombe sur pile au lancer 100, donc j’ai un échantillon de 100 dont 1 pile. Conclusion : selon le même raisonnement, ma pièce 2 est plus biaisée vers pile que ma pièce 1. On voit bien que ça pose problème. Et pourtant le facteur entre les 2 n est plus faible que pour les voitures.

5) Quitte à faire un test sur Waymo + Uber, ne pas être satisfait, et faire un test sur Uber tout seul (sans faire de correction sur la p-value de surcroît), autant faire un test sur Waymo tout seul. 5 millions de km, aucun accident… p(X=0)=.93. Autrement dit, pas de différence (ou pour les puristes : impossible de conclure). On voit ici encore le biais du test puisque même avec 0 mort sur 5 millions de miles, il est absolument impossible pour l’instant, tant qu’on n’aura pas très très fortement augmenté le nombre d’observations, de conclure à une différence en faveur des voitures autonomes. Le test n’est pas neutre puisque la seule différence observable quelles que soient les circonstances, c’est en défaveur des voitures autonomes, et ce dès la présence du moindre outlier dans le cas d’Uber.

Un dernier truc qui me pose souci et qui est révélateur du problème aussi, c’est si on fait la démarche exactement inverse… Sauf erreur de calcul de ma part, si on prend les 8 millions de miles aboutissant à 1 mort, qu’on calcule la probabilité que ça fait par mile, et qu’on regarde si prendre 1 milliard de miles avec 13 morts ça colle au modèle… P(X<=13)<0.000001. Autrement dit selon le sens dans lequel on a décidé de faire le test, on peut se retrouver soit avec une indécision, soit avec une décision absolue sans le moindre équivoque (indécision qui reviendrait à partir de 108 morts par milliard de miles).

Là sorti du chapeau je n’ai pas de solution pour faire un test qui soit plus robuste. Mais à vue de nez, je dirais que le test n’est pas du tout assez fiable pour conclure quoique ce soit.

+0 -0

@gbdivers

Ton calcul est équivalent au mien et arrive essentiellement au même résultat que le mien (tu utilises une probabilité légèrement différente). Pour Waymo+Uber (8 million de miles), la p-valeur de 0.095 correspond à une probabilité de 9.5% et j’en ai conclu que l’on ne peut pas rejeter l’hypothèse nulle (même probabilité). Pour Uber seul (3 million de miles), la p-valeur est 0.037 ce qui est suffisant pour rejeter l’hypothèse nulle pour $\alpha = 0.05$.

J’applique très exactement le test binomial qui est un test statistique parfaitement valide. Au passage, dire qu’il n’y a qu’une seul observation est simplement complètement faux: il y a 8e6 observations, dont une positive.

Et je ne suis pas d’accord avec le fait que l’on ne doit pas faire de stats avec 1 seule mesure. C’est une affirmation fausse qui provient de deux raisons:

  • La majorité des tests statistiques couramment utilisés ne sont valables que sous l’hypothèse que tu as assez d’observations. Ce n’est pas le cas du test binomial qui est un test exacte (il est valable quel que soit la taille de l’échantillon observé).
  • Dans la majorité des cas, les tests statistiques ne sont pas concluant lorsque l’on n’a pas assez d’observations.

Par exemple, imagine que quelqu’un viens de créé une nouvelle loterie et te dis qu’il y a seulement une chance sur un milliard de gagner. Tu joues alors une fois et gagne. Tu as là une seul observation, et pourtant il serait raisonnable de penser que les chances de gagner sont bien supérieur à une chance sur un milliard.

Au passage, je suppose depuis le départ que l’on découpe les trajets en miles, mais il est possible de refaire le même calcul en faisant tendre la distance de discrétisation vers 0 pour s’assurer que la discrétisation ne change pas la valeur réelle. En découpant par section de $x$ miles, on a la p-valeur qui est égale à $P(X > 0)$ avec $X \sim B(n/x, p\times x)$ ($n$ étant la distance de 3e6 miles et $p$ la probabilité pour un mile de 1.25e-8), qui est égale à $1 - P(X = 0)$ avec la même distribution pour X. En continuant, on a $p = 1 - {n/x \choose 0}\times (px)^0\times (1-px)^{n/x}$. En faisant tendre x vers 0, on obtiens1 $p = 1 - e^{-np} = 1 - e^{-3e6\times1.25e-8} = \sim0.0368$. Le résultat est en gros le même que celui que j’ai obtenu avec la discrétisation, donc ce n’était pas une grosse approximation.

@Maeldun

1) Pour les voitures avec conducteur, j’aurais tendance à dire que les miles parcouru sont relativement indépendants. En prenant deux miles aléatoires dans tous les miles parcouru aux États-Unis en une année (données que l’on utilise), quelles sont les chances pour que ces deux miles ne soient pas indépendants? Un mile aura une influence notable uniquement sur les miles locaux (d’un point de vue temporel et spatial).

2) Les véhicules (voitures et camions) parcours dans les 3e12 miles par ans aux États-Unis2 et font dans les 30000 à 40000 morts par ans3. Dans mon calcul, j’ai supposé que l’écart-type était assez faible pour ne pas influencer le résultat de manière significative. En estimant que la valeur réelle est dans les +/- 30% de la valeur utilisé (qui est déjà haute en comparaison des données des dernières années) et dans le pire des cas pour notre test (probabilité 30% plus grande pour les voitures classiques), on obtiens une p-valeur dans les 0.05. Même si cette estimation n’est pas parfaite, ça donne une idée de l’influence possible de l’approximation utilisé

3) Dans le cas où un des n est largement supérieur à l’autre, est-ce qu’utiliser un test de comparaison de deux échantillons est vraiment différent que de supposer que le plus grand échantillon est en fait la distribution réelle? C’est pas une question rhétorique, ça m’intéresse vraiment de savoir à quel point cette simplification affecte le résultat final.

4) Tout à fait d’accord sur ce point. Est-ce qu’il y a un moyen de corriger pour ce facteur (autre que de faire tout plein de simulations pour estimer la distribution de distribution d’Uber en utilisant le même facteur d’arrêt)?

5) En soit, je n’aurais pas dû faire le test Waymo+Uber vu qu’à priori ils ont des distributions différentes (pas d’un point de vue des observations, mais d’un point de vue des connaissances empiriques). Et je n’ai pas fait le test pour Uber seul uniquement parce que je n’étais pas satisfait (mon premier calcul était complètement à côté de la plaque de toute façon). Le test pour vérifier si Waymo est moins sûr que les voitures classiques ne conclu à rien d’intéressant et c’est normal vu que l’observation jusqu’à présent correspond bien à celle des voitures classiques (peu de morts). Je suis tout à fait d’accord sur le fait que l’on va avoir besoin de beaucoup plus de données pour faire la moindre conclusion sur le fait que les voitures autonomes sont plus sûr que les voitures classiques (même d’un facteur infime).

Si l’on veut faire un meilleur test (en gardant des distributions binomiales), il faudrait corriger la distribution pour Uber par rapport au critère d’arrêt des observations et utiliser un test pour comparer deux observations. N’est-il pas possible de faire les deux en utilisant des simulations? Pour le critère d’arrêt, on peut calculer pour chaque probabilité (taux de mort) la distribution du moment d’arrêt et en déduire la distribution de ces probabilités en sachant que l’on s’est arrêté à la 3e6 ème observation. Ça devrait permettre ensuite d’intégrer l’incertitude causé par le critère d’arrêt dans le test final qui compare les deux distributions. Si ça semble valide, je veux bien passer un peu de temps à écrire un programme qui va essayer d’estimer le résultat.

Pour reprendre les points : 1) il y aura des miles qui seront indépendants entre eux, et d’autres pas. Alors certes je suis d’accord, à chaque fois il s’agira de dépendances locales. Mais pas une seule des 1 milliard d’observations ne sera indépendante de toutes les autres, à mon sens ça pose un gros problème. Si on n’a pas p(a,b,c,d,…)=p(a)p(b)p(c)p(d)p(…), la binomiale se casse la gueule à toute vitesse.

2) d’accord avec ça.

3) non en fait je voulais surtout dire : dans les deux cas, quand la différence entre les n devient trop énorme, j’aurais tendance à prendre un test statistique destiné à comparer les 2 groupes avec une certaine précaution, surtout quand la modalité qui nous intéresse est très fortement sous-représentée. Là on est sur des probabilités infinitésimales où l’apport du moindre outlier peut renverser la décision du tout au tout. Et au fond, que ce soit pour une condition ou l’autre, l’apparition d’un accident devient automatiquement des outliers tellement ils sont sous-représentés. Je prends l’exemple chez uber, si on code absence d’accident 0 et présence 1, on a une moyenne de 3.33e-7 et un écart-type de 5.77-4… Donc déjà y’a un facteur de ~173 entre la moyenne et l’écart-type, ça sent pas bon pour une bonne représentation des données par la moyenne vu le jeu de données. Faisons le calcul quand même pour voir à combien d’écart-types se trouve l’accident par rapport à la moyenne : 1732 écart-types de différence. Ouch.

4) Le problème risque de rester le même, non ? Même en lançant des simulations, on va utiliser les paramètres de position et de dispersion qu’on a trouvé ici, donc elles vont globalement être proches les unes des autres même si les paramètres sont faussés. Pour moi le seul vrai moyen, c’est récolter plus de données, et très certainement adapter les tests (peut-être utiliser des stats non paramétriques ?).

5) Ok avec tout le premier paragraphe. Pour le deuxième, je pense que les limites plus haut vont rester les mêmes (d’ailleurs, as-tu vu mon edit sur mon précédent message ? J’y ai rajouté un paragraphe mais je n’avais pas vu que tu avais répondu avant, désolé).

+0 -0

0.095 correspond à une probabilité de 9.5% et j’en ai conclu que l’on ne peut pas rejeter l’hypothèse nulle (même probabilité)

Berdes

Bon, ok, j’avais la tête dans le caca hier (pour cela que j’ai demandé à Mealdun un avis supplémentaire) pour ne pas réaliser que tes 0.095, ca donnait environ mes 90% et donc qu’on avait a peu pres les memes chiffres.

Du coup, je vais tout relire depuis le début à tête reposée avant de dire d’autres bêtises.

Note 1 : pour l’indépendance des données, c’est un point que l’on a discuté avec Maeldun, cela me pose aussi problème de considérer que c’est indépendant.

Note 2 : je pense que mon calcul est faux aussi. En particulier parce qu’il y a une différence entre "prendre 8e6 miles et regarder le nombre d’accidents" (ce qu’on a calculé avec la loi binomiale) et "prendre le premier accident et voir le nombre de miles" (ce qui est plus conforme aux chiffres données)

Bref, je verrais plus tard.

+0 -0

J’ai oublié de revenir ici après avoir réfléchi au problème. (Surtout comment mieux l’expliquer).

Pour rappel de ce que j’avais déjà écrit :

Tu ne peux pas passer d’un événement unique à une probabilité. Ce chiffre n’est pas du tout la probabilité d’avoir un incident par distance parcouru.

[…]

Note 2 : je pense que mon calcul est faux aussi. En particulier parce qu’il y a une différence entre "prendre 8e6 miles et regarder le nombre d’accidents" (ce qu’on a calculé avec la loi binomiale) et "prendre le premier accident et voir le nombre de miles" (ce qui est plus conforme aux chiffres données)

Le gros problème est d’utiliser cet évènement (positif) unique avec une loi binomiale. Les 2 formulations que j’ai donné ne sont pas du tout équivalentes et ne correspondent pas à la même loi de probabilité. L’information que l’on a avec les voitures autonomes correspondent à la seconde formulation ("le premier accident à lieu a X miles") et correspond à une loi géométrique. (Merci fluffy pour le rappel).

L’hypothèse H0 est toujours valide ("la voiture autonome a la même probabilité de 1.25e-8 par mile d’avoir un accident que les voitures manuelles" - si on met de côté le problème de d’independance des probas), mais il n’est pas possible de faire un test binomiale. (Le problème est qu’avec les valeurs que l’on a, la loi géométrique est complètement plate, et on a quasiment la même probabilité - sous H0 - d’avoir un accident a 1e5 miles qu’à 1e7 miles. On ne peut rien conclure sur la probabilité uniquement avec le fait d’avoir un accident a 8e6 miles).

Bref, aucun test ne peut etre appliqué dans ce cas.

(Note : si on regardait plusieurs événements positifs pendant une période, par exemple "le nombre de miles parcourus avant d’avoir 10 accidents"), il faudrait utiliser une loi binomiale inverse. Cette loi tend vers une loi de Poisson quand le nombre d’événements grandit. Ce qui revient a dire qu’il faut avoir assez d’accidents avec les voitures autonomes pour pouvoir en tirer une statistique qui a du sens et qui permettrait de faire une analyse).

+0 -0
Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte