Détermination d'une p-Valeur

a marqué ce sujet comme résolu.

Bonjour,

Dans le cadre d’un cours, j’ai reçu des données cardiologiques (volume ventriculaire VO2max, poids (m) et la surface corporelle (BSA)). L’objectif est de montrer qu’il y a une relation entre:

(1) le rapport volume ventriculaire sur poids (VO2 / m) vs l’âge au moment du diagnostic
(2) le rapport volume ventriculaire sur poids (VO2 / m) vs le poids
(3) le rapport volume ventriculaire sur surface corporelle (VO2 / BSA) vs l’âge au moment du diagnostic
(4) le rapport volume ventriculaire sur surface corporelle (VO2 / BSA) vs le poids

Ensuite, on me demande d’interpréter les résultats et de trouver la meilleure corrélation. Pour cela, on demande de calculer R2 et avoir une p-Valeur < 0.05.

Pour le R2, c’est assez simple car avec un modèle linéaire (qu’on peut assumer ici) on trouve les différentes valeurs dans Excel.

Par contre, pour la p-Valeur, comment est-ce que je peux faire ? J’ai trouvé la fonction T.TEST qui semble faire cela mais ici j’ai fais la p-Valeur entre mes X et mes Y pour chaque cas (donc par exemple p-Valeur entre l’âge et VO2/m) mais ça me donne des valeurs qui me semblent improbables (à chaque fois 10-20 environ).

Aussi, comme il s’agit de données réelles, j’ai des valeurs de R2 assez "nulles" - de l’ordre de 0.1 ou 0.2 maximum dans les différents cas avec une régression linéaire. Possible ?

Merci d’avance!

As tu conscience de ce qu’est la p-valeur? Pour ton R2 ce n’est pas car tu as des valeurs réelles que tu dois forcément avoir un R2 proche de 0 (cela montre si tu as tout bien fait que soit ton modèle ne suit pas une loi linéaire, soit tu as un problème sur ton expérience) . Il existe d’autre régressions non linéaire, tu peux essayer avec une polynomiale et tu devrais avoir de meilleurs résultats.

Merci Vlammar pour ta réponse.

Je ne suis pas statisticien donc je t’avoue que ça n’est pas très clair pour moi mais de ce que j’ai compris, plus la p-valeur est proche de 0 plus ça veut dire que notre hypothèse est juste.

Par exemple ici, si j’ai une p-valeur faible pour le cas (1) c’est que c’est la meilleure hypothèse. Non?

Et pour le R2, c’est sûr mais ça n’est pas un problème ici. On nous dit dans l’énoncé d’assumer que c’est linéaire. La suite de l’exercice consiste à regarder un modèle exponentiel et de comparer.

Salut !

Voici quelques points en vrac qui peuvent peut-être t’aiguiller dans ton projet !

Une première chose à faire serait d’affuter ton intuition sur ces données en particulier en réalisant des graphiques, ça permet déjà “à l’œil” de savoir à quoi s’attendre (parfois une relation linéaire est clairement visible, parfois non on a l’impression de voir du bruit, etc) et en par exemple savoir si tes R2R^2 faibles collent a priori bien à l’intuition que tu as vis à vis des données. Si jamais tu veux aller vers d’autres modèles, au delà de relations linéaires, c’est aussi une bonne première étape pour avoir des idées quant à quel modèle choisir. :)

Second point, il est tout à fait possible d’avoir un R2R^2 “faible” malgré une relation significative entre les deux variables. Cela veut simplement dire que ta relation linéaire explique une part assez faible de la variance des données, mais qu’elle peut quand même significativement en expliquer une partie (c’est à dire qu’). C’est là que la p-value entre justement en jeu et peut permettre une discussion.

J’avais écrit quelques notes sur la p-value dans ce qui suit, pour te donner un peu mieux l’intuition de ce que tu peux calculer pour évaluer la significativité des relations que tu trouves, je suis désolé c’était un peu long alors j’ai mis des titres et sous-titres pour structurer un peu, j’espère que ça sera clair et pas trop ennuyeux haha !

Sur la p-value que tu calcules et ce qu’il faudrait plutôt calculer

Je pense en effet qu’il y a une petite confusion dans ce que tu fais.

Le problème dans ton test d’hypothèse

Toute l’idée derrière le calcul d’une telle p-value est de quantifier la crédibilité d’une hypothèse vis à vis des données que tu observes. Ici, j’ai l’impression que tu calcule une p-value qui correspond à quantifier l’hypothèse H suivante

H0 : « au sein de la population, les rapports volume ventriculaire sur poids (VO2 / m) et l’âge des sujets sont distribués autour d’une même moyenne  »

C’est en tout cas ce à quoi correspond le calcul du test de Student (t-test) entre les deux séries. Évaluer une hypothèse de ce type a du sens par exemple lorsque tu compares une grandeur au sein de deux populations (pour répondre à une question du type «y a-t-il une différence significative entre une quantité donnée que j’observe au sein d’un groupe patients souffrant d’une pathologie et la même quantité observée chez des sujets sains ») (moyennant quelques hypothèses à faire sur la normalité des données par exemple), mais en l’occurrence dans ton exemple on comprend bien qu’il n’y a aucune raison pour qu’une grandeur physiologique cardiologique puisse avoir des valeurs comparables avec des âges, ne serait-ce que parce que les unités des grandeurs que tu compares n’ont rien à voir.

Les p-values extrêmement faibles que tu observes reflètent justement que si tes sujets ont en moyenne disons autour de 50 ans, ils ont un VO2/masse d’en moyenne autour 2,5 ml / kg (je n’ai aucune idée d’une valeur typique de cette quantité, mais c’est pour l’exemple, et c’est très probablement assez loin de 50), et que ces âges de 50 (ans) n’ont rien à voir avec la distribution des volumes ventriculaires.

Ce qui est plus pertinent dans le cas d’une régression

Puis-ce qu’on parle ici de chercher des relations significatives entre des grandeurs, l’hypothèse à poser est différente. Ce que tu commences à faire est effectivement effectuer une régression linéaire, c’est à dire chercher des coefficients α\alpha et β\beta tels que le modélisation suivante soit la meilleure possible:

VolumeVentriculaireSurMasse=α×Age+β\text{VolumeVentriculaireSurMasse} = \alpha \times \text{Age} + \beta

Ce qui est intéressant dans cette relation, c’est que d’une certaine manière le coefficient α\alpha te donnes une idée d’a quel point la relation est “forte” (dans un sens quantitatif et non de significativité) au sein des données (est-ce qu’on s’attend à ce que la première grandeur varie beaucoup en fonction de l’autre ou non). Dans le cas où il n’y a aucune relation entre ta première grandeur et ta seconde, on s’attend justement à ce que ce que ce coefficient α\alpha soit plutôt proche de zéro. Ça permet de formuler une hypothèse à évaluer de la forme:

H0: « Le coefficient α\alpha de ma régression est nul (traduisant une absence de relation)»

En posant proprement le cadre statistique dans lequel on travaille, on peut évaluer cette hypothèse, et par exemple décider de si on a pu trouver un coefficient de régression non nul à cause de “malchance” (i.e. à cause de trop de bruit par rapport à la taille de notre échantillon) ou pas, ou bien de savoir si un coefficient de régression qu’on trouverait 0,02 traduit une relation entre nos données significative mais de faible effet quantitatif (si on a gros échantillon ça permet justement de pouvoir exhiber des effets faibles) ou bien alors non-significative vis-à-vis de notre taille d’échantillon, etc.

Maintenant, comment faire en pratique ?

Ça c’était pour essayer de clarifier un peu comment on peut s’intéresser à la significativité d’une relation qu’on trouverait entre des données via une régression linéaire par exemple. J’espère ne pas avoir trop embrouillé (sinon n’hésite pas à me dire) et je suis resté un peu vague sur le “vrai cadre” dans lequel on se place pour formuler et évaluer les hypothèses, car suivant le positionnement de ton cours ce n’est pas forcément l’objectif principal. Ce qui peut maintenant t’intéresser c’est comment parler de tout ça avec Excel. Je ne suis pas très à l’aise sur le logiciel, mais de ce que je vois il est possible en même temps que tu calcules une régression, d’obtenir une table d’analyse de la régression que tu obtiens (voir ici par exemple). Ça te permet d’obtenir un tableau avec des valeurs pour quantifier plus précisément la relation que tu as trouvées. Ce qui peut t’intéresser toi est ce qui est situé sous la ligne ANOVA (tu as d’ailleurs peut-être déjà entendu parler de ce modèle, assez classique en bio-stats): tu as au choix la possibilité de regarder la “significativité totale de la corrélation que tu trouves” en regardant la F-significance (je ne rentre pas dans les détails, mais ça dépend si tu en as entendu parler dans ton cours et / ou si tu penses que c’est attendu), et les p-values associées à tes coefficients pour chacune des variables de ta régression (ça permet d’évaluer comme je te disais à quel point les coefficients sont significativement différents de zéro, et donc de s’il y a une relation significative entre tes variables).

TL;DR

Si tu veux juste savoir comment calculer les bonnes p-values : regarde ici, ça te permet d’obtenir les p-values associées à ton coefficient de régression, ce qui te donnes un indication supplémentaire à ton calcul de R2R^2 sur la significativité entre l’association à tes variables. Et aussi fais des figures pour illustrer toutes les relations que tu trouves, c’est important pour être sûr et convaincu de tes résultats et avoir des idées pour aller éventuellement plus loin. :)

Merci beaucoup Nae :-) C’est vraiment hyper clair et j’ai pris mon temps pour y réfléchir par rapport à mon set de données.

En relisant bien l’énoncé, les données font beaucoup plus de sens: il fallait montrer justement que ces données n’ont pas de lien entre elles (ce qui semble physiologiquement logique) et donc mon R se rapproche bien de zéro dans les différents cas. Le but est en fait de montrer par quelle variable il est plus intéressant de normaliser dans le cadre médical et pouvoir comparer différents individus.

J’essaye de calculer mes p-valeurs et je continue la suite de l’exercice (où là il y a des corrélations à montrer) et je vous partage ici mes trouvailles en cas de problème.

Encore merci !

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte