[Résolu] Construction d'une statistique de texte • Forum • Zeste de Savoir

Dwayn, jeudi 05 mai 2016 à 14h13
Modifié

Bonjour à tous les ~~Zéros~~ Zesteux !

Bossant actuellement sur les statistiques de test, quelques questions me viennent à l'esprit. Pour illustrer ces questions, je prendrai un exo corrigé que j'ai fait récemment.

Énoncé de l'exercice :

Le poids en gramme de 10 souris est relevé. On mesure à nouveau leur poids après 30 jours de régime alimentaire. On note X, le poids avant le régime, Y le poids après le régime et D la différence des poids (poids avant - poids après). Les variables X, Y et D sont supposées suivre des lois normales et les mesures indépendantes d’une souris à l’autre.
Les résultats figurent dans le tableau ci-dessous :

X	Y
31	29
34	29
37	31
39	42
39	35
40	34
42	38
44	40
45	36
49	53

On donne : $\sum x_i = 400 g$ et $\sum x_i^2 = 16254 g^2$

Voilà les points sur lesquels je voudrais que vous m'éclairiez :

On demande de calculer l'estimation de la variance de X. C'est simple à faire, mais je ne trouve pas le même résultat que dans la correction. En effet, cette dernière pose que $S^2(X) = \left( \dfrac{1}{n-1} \right) \left( \dfrac{\sum x_i^2 - \left( \sum x_i \right)^2}n \right) = \left( \dfrac{1}9 \right) \left( \dfrac{16254 - 400^2}{10} \right) = 28,22g²$ . Pourquoi divise-t-on par $n-1$ ?
On demande ensuite de déterminer si E(X) est statistiquement différent de 35, à un risque de 5%. Dans la correction, ils construisent la statistique de test de la manière suivante : $T = \dfrac{\bar X - 35}{\sqrt{S_X^2 \div n}}$ . Pourquoi divise-t-on par $\sqrt{n}$ ? Est-ce parce qu'il s'agit d'un test apparié ? Plus généralement, quand divise-t-on par $\sqrt{n}$ et quand ne le fait-on pas ?

Merci d'avance pour vos réponses qui, je n'en doute pas, seront aussi limpides que d'habitude ,
Dwayn

05/05/16 à 14h13
Modifié

Très occupé ces temps-ci. Laissez un MP si besoin

+0 -0

KFC, jeudi 05 mai 2016 à 17h30
Modifié

On divise par n-1 parce qu'autrement l'estimateur est biaise (calcule l'esperance pour t'en convraincre, et tu verras que pour obtenir un estimateur non-biaise, tu devras diviser par le facteur $n-1$).
La division par la racine de n depend de la construction de l'estimateur qui depend de ce que tu connais ou non. Ici tu ne connais pas la variance ni la moyenne, donc tu va donc utiliser un test de student.
Tu veux savoir si l'esperance $E[X]$ de la population suivant une loi normale (d'ecart type $\sigma$ que tu ne connais pas) est egale a une valeur determinee $\mu =35$. Tu disposes de $\bar X$ la moyenne empirique et $S^2$ la variance empirique obtenue par l'estimateur non biaisee de la question precedente ; le tout a partir d'un echantillon $n$.
D'apres le theoreme central limite, la variable $Z = \frac{\bar{X} - \mu }{ \frac{\sigma}{\sqrt n}}$ converge vers une loi normale, centree et reduite avec $n$.
Classiquement, tu construis a partir de cela ta zone de rejet et ton test.
Comme dans ton cas tu ne connais pas non plus la variance, il faut l'estimer, et tu te retrouves dans les calculs avec un racine de $n$ qui doit disparaitre lorsque tu as deja la variance.

05/05/16 à 17h30
Modifié

« Kommunist Fried Chicken » | Macroeconomics: Three decades of intellectual regress

+1 -0

Dwayn, jeudi 05 mai 2016 à 17h50

Merci beaucoup ! Le deuxième point est beaucoup plus clair, mais j'ai encore du mal avec le premier point : peu familier avec la notion de biais, je ne vois pas trop comment la division par $n-1$ supprime ce biais. Plus généralement, quel cas doit-on diviser par $n-1$ et dans quels cas ne le doit-on pas ?

05/05/16 à 17h50

Très occupé ces temps-ci. Laissez un MP si besoin

+0 -0

KFC, jeudi 05 mai 2016 à 18h53
Modifié

En general, tu as une loi $X$ qui depend d'un parametre $\theta$ que tu veux estimer. Tu construis ton estimateur comme fonction d'un echantillon, autrement dit $\bar{\theta_n} = f_n(x_1,...,x_n)$ ou les $x_i$ sont des realisations independantes de $X$.

Un estimateur est dit convergent si $P_X(|\bar{\theta_n} - \theta| > \epsilon) = 0,~\forall \epsilon$ lorsque $n$ tends vers l'infini. On parle de convergence en probabilite, et c'est assez faible puisque l'on demande simplement a ce que la probabilite d'un ecart avec la vraie valeur soit d'autant plus faible que la taille de l'echantillon est grand. Autant dire qu'on peut arreter d'utiliser cet estimateur si ce n'est pas le cas.

Une propriete plus forte est la suivante:

Un estimateur est sans biais si $E[\bar \theta_n] - \theta = 0, \forall n$, et l'on appelle cette quantite le biais de l'estimateur pour le parametre $\theta$. Autrement dit, cette fois on demande a l'estimateur de ne jamais se planter en moyenne.

J'ai mis la definition de l'estimateur convergent pour que tu vois la difference et que tu sentes que cette propriete est plus forte¹.

Un propriete un peu plus faible est la suivante:

Un estimateur est asymptotiquement sans biais si $E[\bar{\theta}_n] - \theta = 0$ lorsque $n$ tend vers l'infini. Ici il s'agit d'une convergence en esperance.

Pour en revenir a nos moutons, calcule la quantite $E[S^2_n] - Var[X]$. Tu dois trouver $E[S^2_n] = \frac{n-1}{n}Var[X]$ et donc il faut diviser par $\frac{n}{n-1}$ l'estimateur initial pour obtenir un estimateur non biaise.

En fait, une convergence en esperance implique une convergence en probabilite. Il existe une convergence encore plus faible qui est la convergence en loi (utilise par le theoreme central limite). ↩

05/05/16 à 18h53
Modifié

« Kommunist Fried Chicken » | Macroeconomics: Three decades of intellectual regress

+1 -0

Dwayn, jeudi 05 mai 2016 à 20h11
Modifié

Merci à nouveau pour ce que tu as pris la peine de rédiger. Malheureusement, j'ai encore un peu de mal à percuter.
Pour reprendre ta formule, on a $E[S^2_n] = \frac{n-1}{n}Var[X]$ . Si je compare avec la formule du corrigé, on a plutôt $S^2(X) = \left( \dfrac{1}{n-1} \right) \left( \dfrac{Var[X]}n \right)$. Du coup, tout ça me perd un peu :euh: …

05/05/16 à 20h11
Modifié

Très occupé ces temps-ci. Laissez un MP si besoin

+0 -0

KFC, vendredi 06 mai 2016 à 12h05

$E[S^2_n]$ ce n'est pas $S^2_n$.

Part de la definition de la variance empirique: $S^2_n = \frac 1 n \sum_k (X_k - E(X_k))^2$ et calcule l'esperance. C'est pas trivial et il faut d'abord calculer $E(\bar{X}^2)$ et jouer sur les relations entre variance et esperance de $X$.

Solution ici.

06/05/16 à 12h05

« Kommunist Fried Chicken » | Macroeconomics: Three decades of intellectual regress

+1 -0

Dwayn, vendredi 06 mai 2016 à 13h11
Modifié

Ce que tu écris et le lien que tu donnes ne font que révéler un peu plus mon incompréhension :

Tu écris que $S^2_n = \frac 1 n \sum_k (X_k - E(X_k))^2$ tandis que le site donne . En plus de ne pas comprendre où est passé le $\frac 1 n$ dans la formule du site, j'ai du mal à comprendre une telle distribution des carrés.
Tu parles de $E(\bar{X}^2)$ mais j'ai du mal à comprendre l'utilité et la signification d'une telle chose : $\bar{X}$ est une moyenne, non ? Assimilant $E(X)$ à un moyenne, j'ai du mal à comprendre la combinaison entre ces deux éléments.
Enfin, je ne comprends pas le passage de la première à la seconde ligne dans .

J'ai beau retourner le problème dans tous les sens, je sens qu'il y a beaucoup de choses qui m'échappent encore. Merci pour ce que tu as écrit jusque là (et pour ta patience :honte: )

06/05/16 à 13h11
Modifié

Très occupé ces temps-ci. Laissez un MP si besoin

+0 -0

Dwayn, lundi 09 mai 2016 à 18h28

Up

09/05/16 à 18h28

Très occupé ces temps-ci. Laissez un MP si besoin

+0 -0

KFC, mardi 10 mai 2016 à 10h48

Desole, j'ai vraiment peu de temps en ce moment pour repondre.

Je completerais plus tard, mais c'est ton probleme de comprehension vient du passage d'une vision statistique a une vision probabiliste qui peut deconcerter. En faisant un petit point sur les defintions, et en montrant les deux visions tu n'auras plus aucun soucis.

Pour repondre au second point sur l'esperance du $\bar X$:

En fait, $\bar X$ est une variable aleatoire, somme des $X_i$ divise par $n$. C'est un estimateur de l'esperance, certes, mais c'est aussi une variable aleatoire, et donc on peut tout a fait parler de son esperance $E(\bar X)$. Esperanception !

Maintenant, lorsque tu as un echantillon, provenant de tes $X_i$, on les note generalement $x_i$ pour montrer que ce sont des realisations, tu peux calculer la realisation de ton estimateur sur cet echantillon: $\bar x = \frac 1 k \sum_i x_i$.

Pour 1 et 3, je completerais plus tard… dans la semaine.

10/05/16 à 10h48

« Kommunist Fried Chicken » | Macroeconomics: Three decades of intellectual regress

+1 -0

Goeland-croquant, mardi 10 mai 2016 à 21h52

Pour essayer de répondre, au point 1, tu connais la formule de la variance $V(X) = E((X-E(X)^2) = E(X^2) - (E(X))^2$ ? ça se démontre facilement en distribuant les carrés et en sachant que pour une variable aéatoire X et deux nombres a et b, $E(aX + b) = a E(X) + b$ et que pour deux variables aléatoires X et Y $E(X+Y) = E(X) + E(Y)$ (l'espérance est linéaire, d'une certaine façon). Vu que toutes les variables $X_k$ suivent la même loi elles ont même espérance. Le reste découle facilement.

Pour le point 3, rebelote distribution des carrés, formule généralisée du développement de $(a+b)^2$, la somme des carrés + la somme des produits des termes différents ( $(a+b)^2 = a^2 + b^2 + a\times b + b \times a$). Même principe avec un peu plus plus de termes.