Moyenne de la plus grande valeur d'une population aléatoire

Berdes, lundi 25 janvier 2016 à 16h46
Modifié

Bonjour,

Je suis actuellement bloqué sur un problème de probabilité (il me semble) nécessitant de calculer la moyenne de la plus grande valeur d'une population aléatoire. Pour expliquer plus clairement, supposons que je sois un scientifique si s'intéresse à la taille des êtres humains et plus particulièrement, je souhaiterais estimer (grace aux probabilités) la taille du plus grand être humain vivant. Je peux faire des mesures sur des échantillons de la population mondiale, mais je ne peux, évidemment, pas demander la taille de tous les êtres humains.

Alors, pour l'instant, j'ai fais la supposition que ma population suit une loi normale. Vu la manière dont je génère mes échantillons, la moyenne est déjà connu (et les mesures correspondent). Par contre, j'ai rencontré un premier problème pour l'écart-type : même avec un million d'éléments, l'écart-type mesuré à une variation de 3-4%, ce qui me semble beaucoup. Au passage, c'est $\frac{1}{n}$ ou $\frac{1}{n-1}$ qu'il faut utiliser pour estimer la variance?

Ensuite, il faudrait que je vérifie que ma population corresponde bien à la loi normale estimée. Il me semble qu'il y a des méthodes pour ça, mais je n'arrive pas à les retrouver. Après, cette étape n'est pas forcément trop importante dans mon cas puisque, vu la manière dont je génère mes échantillons, ça me semble assez logique d'avoir une loi normale.

Enfin, une fois que l'on a les paramètres, il faut calculer l'espérance du maximum de n tirages. Vu que mon n est très grand (de l'ordre de 10^90), il m'est totalement impossible d'avoir une idée de l'espérance juste en essayant de faire plein de tirages. Donc je suis obligé de passer par les math.

Ici, en notant $F_{max}(x)$ la fonction de répartition de l'espérance du maximum de n tirages, j'ai

$$\begin{aligned} F_{max}(x) &= P(\max\limits_{i=0}^n(X_i) < x)\\ &= P(X_1 < x, X_2 < x, ..., X_n < x)\\ &= \prod_{x=0}^n P(X_i < x)\\ &= \left( P(X < x) \right)^n\\ &= F_X(x)^n \end{aligned}$$

Donc on a la fonction de répartition du maximum en fonction de la fonction de répartition d'un élément de la population. On veux donc calculer $E = \int_{-\infty}^{+\infty}xf_{max}(x)dx$, en sachant que $F_{max}(x) = \int_{-\infty}^{x}f_{max}(t) dt$. Et là, je commence à sérieusement sécher pour arriver à me dépatouiller. Au passage, je n'ai pas besoin d'une formule exacte (s'il en existe une), un résultat numérique me suffit.

Enfin, j'aimerais arriver à avoir un interval de confiance pour ce résultat (en partant de celui de la variance). Pour le coup, c'est un terrain totalement inconnu pour moi. Donc si c'est trop compliqué, je vais peut-être le laisser de côté.

Est-ce qu'une âme charitable a une idée?

Merci d'avance.

25/01/16 à 16h46
Modifié

+0 -0

Davidbrcz, lundi 25 janvier 2016 à 17h41
Modifié

Pour la variance c'est en $\frac{1}{n}$. Pour un estimateur de la variance, c'est en $\frac{1}{n-1}$. la page Wk anglais en parle mieux que moi.

Pour les tests statistiques, regarde du côté du Test du χ² & co

Pour le fond du problème ce que tu fais me rappelle fortement l'Extreme value theory, tu pourrais p-e regarder de ce côté là.

25/01/16 à 17h41
Modifié

Blog

+0 -0

Berdes, lundi 25 janvier 2016 à 19h40

Merci pour la variance. L'article anglais est, en effet, plus clair que le français. Donc vu que j'ai la variance d'un échantillon, il faut que j'utilise $\frac{1}{n-1}$. Je viens d'ailleurs de me rendre compte que vu que j'ai un échantillon de un million d'éléments, ça ne change pas grand chose.

En fait, plus j'y réfléchit et plus ça me semblerais logique que ça suive une loi normale. La génération d'éléments aléatoire dans ma population ressemble pas mal à une loi binomiale. De toute manière, si ce n'est pas une loi normale, je vois vraiment pas ce que ça pourrait être. D'après Wikipédia, ça pourrait être une loi de Irwin-Hall, mais vu les paramètres, je pense qu'on peut sans problème l'approximer avec une loi normale.

Enfin, l'Extreme value theory s'intéresse plus à déduire des choses sur les événements à venir à partir des événements passés qu'à déterminer des choses sur une population gigantesque à partir d'un échantillon de celle-ci. Les points communs s'arrêtent globalement là où je commence à ne plus réussir à faire les calculs (en tout cas, sur l'article Wikipédia).

Par contre, ça ne m'a pas du tout l'air simple puisque mes recherches m'ont conduit soit à des trucs que je ne comprends pas du tout (order statistic), soit sur des bornes qui sont très larges dans mon cas (borne haute = 2.1*borne basse sur une loi normale centrée dans mon cas).

25/01/16 à 19h40

+0 -0

Berdes, lundi 25 janvier 2016 à 20h40

Bon, je viens de faire les calculs et j'obtiens ces résultats :

$$\begin{align} E &= \int_{-\infty}^{+\infty}x f_{max}(x)dx\\ &= \int_{-\infty}^{+\infty}x n \Phi(x)^{n-1} \phi(x) dx\\ &= \int_{-\infty}^{+\infty}x n \left(\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{1}{2}t^2}dt\right)^{n-1}e^{-\frac{1}{2}x^2}dx \end{align}$$

$\Phi$ et $\phi$ sont respectivement la fonction de répartition et la fonction de probabilité de la loi normale (notations de Wikipédia). Le problème, c'est que Sage est incapable de faire le calcul : la première forme (qui utilise erf, la fonction d'erreur) me donne des erreurs comme quoi il ne peut pas faire de calcul numérique sur un truc symbolique et la deuxième forme m'indique que mon exposant est trop grand. De même, j'ai essayé de mettre ça dans Wolframalpha, mais je n'ai pas réussi à le lui faire comprendre. En dernier recours, je viens de voir que mon université me permet d'avoir une licence pour Mathematica qui pourra peut-être me donner quelque chose, mais le téléchargement est particulièrement long. Est-ce que quelqu'un à une autre solution pour avoir un résultat numérique de cette expression assez immonde?

25/01/16 à 20h40

+0 -0

Comment la calculer?

Pas encore membre ?