Statistique descriptive à une dimension

Explorez et comprenez les données du quotidien

a marqué ce sujet comme résolu.

Tout le monde se secoue ! :D

J’ai commencé (il y a 10 heures) la rédaction d’un tutoriel au doux nom de « Statistique descriptive à une dimension » et j’ai dans l’objectif de proposer en validation un texte aux petits oignons. Je fais donc appel à votre bonté sans limite pour dénicher le moindre pépin, que ce soit à propos du fond ou de la forme. Vous pourrez consulter la bêta à votre guise à l’adresse suivante :

Merci !


Bonjour à tous,

J’ai remarqué qu’il n’y avait aucun tutoriel sur la statistique sur ZDS, et je me suis dis que ce pourrait être une bonne idée de commencer avec un petit tutoriel sur la statistique descriptive à une dimension. Le tutoriel est bien sûr incomplet, seule la partie vocabulaire est bien avancée. J’aimerai cependant recueillir vos avis sur cette dernière, puisque c’est sans doute la partie la plus difficile de ce tutoriel.

Si vous avez des suggestions ou si vous voyez des mauvaises tournures de phrases, n’hésitez pas à me le dire, j’essaye de faire de mon mieux mais il n’est pas toujours évident d’expliquer certaines notions.

À plus !

+6 -0

Coucou !

Chouette idée ! Je te rajoute sur le topic de gestion!

D’ailleurs n’hésite pas à me contacter directement si tu as besoin de quelque chose pendant la rédaction (casquette de PA oblige !).

Cette partie n’est pas la plus intéressante

Mauvaise idée d’amorce si tu veux pas perdre ton public :P.

Sinon rien à dire. Cette partie sur le vocabulaire est très bien et l’intention est excellente. :-)

Salut,

Je confirme, l’idée est très chouette.

Quel public vises-tu ? Plutôt le lycéen, le matheux pur et dur, le scientifique qui devrait faire un peu plus de vrai stat…

Selon ton choix, je pourrai faire un retour moins maths que Holosmos, et plus mékeskidi. ;)

+2 -0

Merci pour vos retours. :)

Cette partie n’est pas la plus intéressante

Mauvaise idée d’amorce si tu veux pas perdre ton public :P.

Holosmos

Oui en effet, le problème c’est que c’est le genre de partie qu’on n’aime pas toujours dans les tutoriels, où il y a plein de définitions. Malheureusement, elle est indispensable. ^^

Quel public vises-tu ? Plutôt le lycéen, le matheux pur et dur, le scientifique qui devrait faire un peu plus de vrai stat…

Gabbro

Alors pour ce tutoriel, globalement, je dirais qu’il est faisable à partir d’un niveau Terminale, voir Première (à condition de comprendre les symbole de sommation et de produits). Après, pour ce qui est des mesures de formes et de concentration, peut-être qu’il faudra un peu plus de connaissances techniques, mais pour l’instant, j’essaye de simplifier pour rendre cette discipline accessible au plus grand nombre.

Après, j’ai d’autres idées de tutoriels, comme la statistique descriptive à deux variables, multidimensionnelle ou des séries temporelles, où cette fois-ci, la maîtrise de l’algèbre linéaire et de certains outils d’optimisation seront indispensables. ;)

Cette partie n’est pas la plus intéressante

Mauvaise idée d’amorce si tu veux pas perdre ton public :P.

Holosmos

Oui en effet, le problème c’est que c’est le genre de partie qu’on n’aime pas toujours dans les tutoriels, où il y a plein de définitions. Malheureusement, elle est indispensable. ^^

L1ne

Il y a peut-être des moyens de rendre ces parties intéressantes. Un moyen que j’imagine, c’est de partir d’une problèmatique : le but des stats, c’est d’analyser des données. Donc on a des centaines de données, comment on peut faire pour simplifier ? On prend la moyenne. Problème, elle est trop dépendante des données extrêmes. On peut donc prendre la médiane. Problème, ces valeurs ne disent rien sur la répartition exacte. Donc on prend l’écart-type, et ainsi de suite. Ca permet de donner les définitions, en évitant l’effet catalogue, et en plus en en donnant une explication intuitive. (Au passage, je trouve que les formules sont balancées de manière trop brute, sans les expliquer)

Salut,

Quelques remarques :

  • "Il existe deux types de variables, et chacun de ces type se divise encore en deux "sous-types". Globalement, on rencontre deux types de variables :" Cette phrase n’est pas super claire, je trouve. Peut être à cause des répétitions.
  • "qui sont des variables à valeurs numériques, auxquelles les opérations arithmétique ont un sens." Pour lesquels serait plus approprié que auxquelles, à mon avis;
  • Dans le chapitre ’Les variables quantitatives discrètes’ au lieu d’exposer tout le vocabulaire (effectif/effectif total/ etc.) et après de donner un exemple, ne peux tu pas appliquer ton exemple après chaque définition de vocabulaire. Je pense que la compréhension en serait plus facile.

Pour l’instant l’ensemble est compréhensible mais je trouve le contenu très dense. On reçoit beaucoup d’informations en même temps, peut être faut il aérez le fond en illustrant plus ton propos (exemples, images, etc.).

Keep up !

Anto59290

Il y a une phrase que je n’aime pas du tout : L’ensemble des PME françaises est un échantillon de la population précédente.

Cette phrase n’est pas fausse à proprement parler, mais elle propose exactement le contraire d’un bon échantillon. J’aurais préféré : Prendre 500 entreprises au hasard constitue un échantillon de la population précédente.

Généralement on analyse un échantillon, mais l’idée derrière est d’utiliser les résultats obtenus comme si ces résultats s’appliquaient à la population totale.

+0 -0

Il y a une phrase que je n’aime pas du tout : L’ensemble des PME françaises est un échantillon de la population précédente.

Cette phrase n’est pas fausse à proprement parler, mais elle propose exactement le contraire d’un bon échantillon. J’aurais préféré : Prendre 500 entreprises au hasard constitue un échantillon de la population précédente.

Généralement on analyse un échantillon, mais l’idée derrière est d’utiliser les résultats obtenus comme si ces résultats s’appliquaient à la population totale.

elegance

Dans les faits, si l’on prend un nombre limité, oui, on aurait tendance à en prendre un nombre $n$ au hasard. Mais ici, je parlais bien de l’ensemble des PME françaises, soit toutes les PME françaises, même s’il y en a des dizaines de milliers. Pour en revenir à ta deuxième phrase, j’aurai plutôt envie de dire qu’il s’agit du rôle de la statistique inférentielle, même si les deux domaines sont fortement liés.

+0 -0

Je pense effectivement également que la plus valu d’un tel écrit par rapport à un cours formel que l’on peu trouver un peu partout sur Internet se situe très exactement dans la reformulation moins abrupte de la présentation ou définition de certains termes.

KFC

Alors oui en effet, l’objectif du cours est d’aborder les notions de base en statistique pour un public assez large. Même si j’enlève volontairement certains aspects, je suis obligé de garder certaines formules, notamment les distinctions entre les cas discrets, continus et/ou agrégés.

Je pense effectivement également que la plus valu d’un tel écrit par rapport à un cours formel que l’on peu trouver un peu partout sur Internet se situe très exactement dans la reformulation moins abrupte de la présentation ou définition de certains termes.

KFC

Alors oui en effet, l’objectif du cours est d’aborder les notions de base en statistique pour un public assez large. Même si j’enlève volontairement certains aspects, je suis obligé de garder certaines formules, notamment les distinctions entre les cas discrets, continus et/ou agrégés.

L1ne

Mon message ne signifiait pas qu’il ne fallait pas présenter les formules de manière précise, ni même de ne pas donner les démonstrations de manière très formelle lorsque tu présentes des théorèmes.

Mon message voulait dire que le plus valu des écrits de mathématiques de ZdS par rapport à un cours formel réside dans le contenu entre les énoncés formels. Il s’agit de la "glue" explicative qui permet d’imager, expliquer un contexte historique ou d’utilisation, de donner des exemples, difficultés, illustrations, des analogies, etc. Bref tout ce qui amener quelqu’un avec moins de pré-requis qu’un élève recevant le cours formel équivalent, à apprécier et comprendre le contenu tout en maintenant la rigueur et l’autonomie du document par la précision des passages formels.

A mon sens, c’est très exactement là que se situe ou doit se situer la vulgarisation. Ou plutôt, c’est LA métrique pour mesurer la bonne vulgarisation de la mauvaise qui souille le contenu plus qu’il ne le transmet. Les polycopiés de cours d’université ne sont pas de la vulgarisation par cela même qu’ils n’ont pas de contenu liant entre les différentes formules et énoncés formels autre qu’un ordre chronologiques respectant les pré-requis respectifs de chaque formule. Généralement c’est parce qu’ils s’inscrivent dans un environnement plus large qu’est l’année scolaire ou tout le cursus scolaire qui répond à une maquette pédagogique et parce que la partie liante est effectuée par les travaux pratiques ou divers exercices où le professeur doit apporter la plus valu que l’on ne peut effectuer sur ZdS.

Bonjour les agrumes !

La bêta a été mise à jour et décante sa pulpe à l’adresse suivante :

Merci d’avance pour vos commentaires.


J’ai essayé d’appliquer vos conseils. Comme cela a été dit plus haut, c’est vrai que le contenu est très dense. J’en suis donc arrivé à la conclusion que je ne vais pas présenter le tutoriel avec $R$ ou $MATLAB$, ce serait beaucoup trop long. Je vais tout de même fournir un code pour la correction de l’exercice d’application. Si vous avez des remarques n’hésitez pas :) .

+1 -0

C’est dense en effet, je n’ai pas encore tout lu.
Pour la différence médiane - moyenne, j’avais lu l’exemple suivant qui m’a l’air très parlant :

Sur une promo de 20 étudiants, 19 sortent avec un salaire entre 20 et 30 mille dollars, et un se fait embaucher par une équipe de basket à un million. L’Université peut alors se vanter d’avoir un salaire moyen à la sortie de 70000 dollars ! Du coup le salaire médian à 25000 sera un indicateur plus fiable.

Sinon une autre phrase que j’aime bien : méfiez vous des statisticiens. Selon eux, l’être humain moyen a un sein et une couille.

J’aime pas ce bashing des stats. C’est un domaine qui donne au contraire beaucoup d’outils pour rentrer dans les subtilités et les finesses dans l’analyse de données.

Si aujourd’hui on a un problème avec les stats c’est parce que les gens qui les interprètent sont incompétents et font dire des choses que les stats ne disent pas.

Faut pas se méfier des stats, mais des Hommes, comme toujours.

Si aujourd’hui on a un problème avec les stats c’est parce que les gens qui les interprètent sont incompétents et font dire des choses que les stats ne disent pas.

Faut pas se méfier des stats, mais des Hommes, comme toujours.

Holosmos

+1000

(même si du coup, il n’y a pas de problème avec les statistiques autre que les limitations actuelles qui sont repoussées chaque jour par les chercheurs du monde entier… comme toute autre science)

Je vois que L1ne a plussoyé le message de Looping, qui dit la même chose que moi, mais sous d’autres termes. L1ne saura donc adapter son tutoriel pour prendre en compte cet aspect.

Le reste n’a aucune importance.

@Aabu : avoir des idées (derrière la tête), ou avoir les idées claires, ce n’est pas exactement la même chose. Voire …

Ce sujet est verrouillé.