Construction d'une statistique de texte

En bonus, une question sur la variance

L'auteur de ce sujet a trouvé une solution à son problème.
Auteur du sujet

Bonjour à tous les Zéros Zesteux :D !

Bossant actuellement sur les statistiques de test, quelques questions me viennent à l'esprit. Pour illustrer ces questions, je prendrai un exo corrigé que j'ai fait récemment.

Énoncé de l'exercice :

Le poids en gramme de 10 souris est relevé. On mesure à nouveau leur poids après 30 jours de régime alimentaire. On note X, le poids avant le régime, Y le poids après le régime et D la différence des poids (poids avant - poids après). Les variables X, Y et D sont supposées suivre des lois normales et les mesures indépendantes d’une souris à l’autre.
Les résultats figurent dans le tableau ci-dessous :

X Y
31 29
34 29
37 31
39 42
39 35
40 34
42 38
44 40
45 36
49 53

On donne : $\sum x_i = 400 g$ et $\sum x_i^2 = 16254 g^2$

Voilà les points sur lesquels je voudrais que vous m'éclairiez :

  1. On demande de calculer l'estimation de la variance de X. C'est simple à faire, mais je ne trouve pas le même résultat que dans la correction. En effet, cette dernière pose que $S^2(X) = \left( \dfrac{1}{n-1} \right) \left( \dfrac{\sum x_i^2 - \left( \sum x_i \right)^2}n \right) = \left( \dfrac{1}9 \right) \left( \dfrac{16254 - 400^2}{10} \right) = 28,22g²$ . Pourquoi divise-t-on par $n-1$ ?

  2. On demande ensuite de déterminer si E(X) est statistiquement différent de 35, à un risque de 5%. Dans la correction, ils construisent la statistique de test de la manière suivante : $T = \dfrac{\bar X - 35}{\sqrt{S_X^2 \div n}}$ . Pourquoi divise-t-on par $\sqrt{n}$ ? Est-ce parce qu'il s'agit d'un test apparié ? Plus généralement, quand divise-t-on par $\sqrt{n}$ et quand ne le fait-on pas ?

Merci d'avance pour vos réponses qui, je n'en doute pas, seront aussi limpides que d'habitude :) ,
Dwayn

Édité par Dwayn

90% of teens today would die if Facebook was completely destroyed. If you are one of the 10% that would be laughing, copy and paste this to your signature.

+0 -0

Cette réponse a aidé l'auteur du sujet

  1. On divise par n-1 parce qu'autrement l'estimateur est biaise (calcule l'esperance pour t'en convraincre, et tu verras que pour obtenir un estimateur non-biaise, tu devras diviser par le facteur $n-1$).

  2. La division par la racine de n depend de la construction de l'estimateur qui depend de ce que tu connais ou non. Ici tu ne connais pas la variance ni la moyenne, donc tu va donc utiliser un test de student.
    Tu veux savoir si l'esperance $E[X]$ de la population suivant une loi normale (d'ecart type $\sigma$ que tu ne connais pas) est egale a une valeur determinee $\mu =35$. Tu disposes de $\bar X$ la moyenne empirique et $S^2$ la variance empirique obtenue par l'estimateur non biaisee de la question precedente ; le tout a partir d'un echantillon $n$.
    D'apres le theoreme central limite, la variable $Z = \frac{\bar{X} - \mu }{ \frac{\sigma}{\sqrt n}}$ converge vers une loi normale, centree et reduite avec $n$.
    Classiquement, tu construis a partir de cela ta zone de rejet et ton test.
    Comme dans ton cas tu ne connais pas non plus la variance, il faut l'estimer, et tu te retrouves dans les calculs avec un racine de $n$ qui doit disparaitre lorsque tu as deja la variance.

Édité par KFC

+1 -0
Auteur du sujet

Merci beaucoup ! Le deuxième point est beaucoup plus clair, mais j'ai encore du mal avec le premier point : peu familier avec la notion de biais, je ne vois pas trop comment la division par $n-1$ supprime ce biais. Plus généralement, quel cas doit-on diviser par $n-1$ et dans quels cas ne le doit-on pas ?

90% of teens today would die if Facebook was completely destroyed. If you are one of the 10% that would be laughing, copy and paste this to your signature.

+0 -0

Cette réponse a aidé l'auteur du sujet

En general, tu as une loi $X$ qui depend d'un parametre $\theta$ que tu veux estimer. Tu construis ton estimateur comme fonction d'un echantillon, autrement dit $\bar{\theta_n} = f_n(x_1,...,x_n)$ ou les $x_i$ sont des realisations independantes de $X$.

Un estimateur est dit convergent si $P_X(|\bar{\theta_n} - \theta| > \epsilon) = 0,~\forall \epsilon$ lorsque $n$ tends vers l'infini. On parle de convergence en probabilite, et c'est assez faible puisque l'on demande simplement a ce que la probabilite d'un ecart avec la vraie valeur soit d'autant plus faible que la taille de l'echantillon est grand. Autant dire qu'on peut arreter d'utiliser cet estimateur si ce n'est pas le cas. :)

Une propriete plus forte est la suivante:

Un estimateur est sans biais si $E[\bar \theta_n] - \theta = 0, \forall n$, et l'on appelle cette quantite le biais de l'estimateur pour le parametre $\theta$. Autrement dit, cette fois on demande a l'estimateur de ne jamais se planter en moyenne.

J'ai mis la definition de l'estimateur convergent pour que tu vois la difference et que tu sentes que cette propriete est plus forte1.

Un propriete un peu plus faible est la suivante:

Un estimateur est asymptotiquement sans biais si $E[\bar{\theta}_n] - \theta = 0$ lorsque $n$ tend vers l'infini. Ici il s'agit d'une convergence en esperance.

Pour en revenir a nos moutons, calcule la quantite $E[S^2_n] - Var[X]$. Tu dois trouver $E[S^2_n] = \frac{n-1}{n}Var[X]$ et donc il faut diviser par $\frac{n}{n-1}$ l'estimateur initial pour obtenir un estimateur non biaise.


  1. En fait, une convergence en esperance implique une convergence en probabilite. Il existe une convergence encore plus faible qui est la convergence en loi (utilise par le theoreme central limite). 

Édité par KFC

+2 -0
Auteur du sujet

Merci à nouveau pour ce que tu as pris la peine de rédiger. Malheureusement, j'ai encore un peu de mal à percuter.
Pour reprendre ta formule, on a $E[S^2_n] = \frac{n-1}{n}Var[X]$ . Si je compare avec la formule du corrigé, on a plutôt $S^2(X) = \left( \dfrac{1}{n-1} \right) \left( \dfrac{Var[X]}n \right)$. Du coup, tout ça me perd un peu :euh:

Édité par Dwayn

90% of teens today would die if Facebook was completely destroyed. If you are one of the 10% that would be laughing, copy and paste this to your signature.

+0 -0
Auteur du sujet

Ce que tu écris et le lien que tu donnes ne font que révéler un peu plus mon incompréhension :

  • Tu écris que $S^2_n = \frac 1 n \sum_k (X_k - E(X_k))^2$ tandis que le site donne Image utilisateur. En plus de ne pas comprendre où est passé le $\frac 1 n$ dans la formule du site, j'ai du mal à comprendre une telle distribution des carrés.
  • Tu parles de $E(\bar{X}^2)$ mais j'ai du mal à comprendre l'utilité et la signification d'une telle chose : $\bar{X}$ est une moyenne, non ? Assimilant $E(X)$ à un moyenne, j'ai du mal à comprendre la combinaison entre ces deux éléments.
  • Enfin, je ne comprends pas le passage de la première à la seconde ligne dans Image utilisateur.

J'ai beau retourner le problème dans tous les sens, je sens qu'il y a beaucoup de choses qui m'échappent encore. Merci pour ce que tu as écrit jusque là (et pour ta patience :honte: )

Édité par Dwayn

90% of teens today would die if Facebook was completely destroyed. If you are one of the 10% that would be laughing, copy and paste this to your signature.

+0 -0
Auteur du sujet

Up

90% of teens today would die if Facebook was completely destroyed. If you are one of the 10% that would be laughing, copy and paste this to your signature.

+0 -0

Cette réponse a aidé l'auteur du sujet

Desole, j'ai vraiment peu de temps en ce moment pour repondre.

Je completerais plus tard, mais c'est ton probleme de comprehension vient du passage d'une vision statistique a une vision probabiliste qui peut deconcerter. En faisant un petit point sur les defintions, et en montrant les deux visions tu n'auras plus aucun soucis.

Pour repondre au second point sur l'esperance du $\bar X$:

En fait, $\bar X$ est une variable aleatoire, somme des $X_i$ divise par $n$. C'est un estimateur de l'esperance, certes, mais c'est aussi une variable aleatoire, et donc on peut tout a fait parler de son esperance $E(\bar X)$. Esperanception !

Maintenant, lorsque tu as un echantillon, provenant de tes $X_i$, on les note generalement $x_i$ pour montrer que ce sont des realisations, tu peux calculer la realisation de ton estimateur sur cet echantillon: $\bar x = \frac 1 k \sum_i x_i$.

Pour 1 et 3, je completerais plus tard… dans la semaine. :)

+1 -0

Cette réponse a aidé l'auteur du sujet

Pour essayer de répondre, au point 1, tu connais la formule de la variance $V(X) = E((X-E(X)^2) = E(X^2) - (E(X))^2$ ? ça se démontre facilement en distribuant les carrés et en sachant que pour une variable aéatoire X et deux nombres a et b, $E(aX + b) = a E(X) + b$ et que pour deux variables aléatoires X et Y $E(X+Y) = E(X) + E(Y)$ (l'espérance est linéaire, d'une certaine façon). Vu que toutes les variables $X_k$ suivent la même loi elles ont même espérance. Le reste découle facilement.

Pour le point 3, rebelote distribution des carrés, formule généralisée du développement de $(a+b)^2$, la somme des carrés + la somme des produits des termes différents ( $(a+b)^2 = a^2 + b^2 + a\times b + b \times a$). Même principe avec un peu plus plus de termes.

Ich bin très occupé cette année. Ne vous étonnez pas si je réponds par intermittence.

+1 -0
Auteur du sujet

Merci à vous deux : sujet résolu :) .

90% of teens today would die if Facebook was completely destroyed. If you are one of the 10% that would be laughing, copy and paste this to your signature.

+0 -0
Vous devez être connecté pour pouvoir poster un message.
Connexion

Pas encore inscrit ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte