Salut !
Voici quelques points en vrac qui peuvent peut-être t’aiguiller dans ton projet !
Une première chose à faire serait d’affuter ton intuition sur ces données en particulier en réalisant des graphiques, ça permet déjà “à l’œil” de savoir à quoi s’attendre (parfois une relation linéaire est clairement visible, parfois non on a l’impression de voir du bruit, etc) et en par exemple savoir si tes R2 faibles collent a priori bien à l’intuition que tu as vis à vis des données. Si jamais tu veux aller vers d’autres modèles, au delà de relations linéaires, c’est aussi une bonne première étape pour avoir des idées quant à quel modèle choisir.
Second point, il est tout à fait possible d’avoir un R2 “faible” malgré une relation significative entre les deux variables. Cela veut simplement dire que ta relation linéaire explique une part assez faible de la variance des données, mais qu’elle peut quand même significativement en expliquer une partie (c’est à dire qu’). C’est là que la p-value entre justement en jeu et peut permettre une discussion.
J’avais écrit quelques notes sur la p-value dans ce qui suit, pour te donner un peu mieux l’intuition de ce que tu peux calculer pour évaluer la significativité des relations que tu trouves, je suis désolé c’était un peu long alors j’ai mis des titres et sous-titres pour structurer un peu, j’espère que ça sera clair et pas trop ennuyeux haha !
Sur la p-value que tu calcules et ce qu’il faudrait plutôt calculer
Je pense en effet qu’il y a une petite confusion dans ce que tu fais.
Le problème dans ton test d’hypothèse
Toute l’idée derrière le calcul d’une telle p-value est de quantifier la crédibilité d’une hypothèse vis à vis des données que tu observes. Ici, j’ai l’impression que tu calcule une p-value qui correspond à quantifier l’hypothèse H suivante
H0 : « au sein de la population, les rapports volume ventriculaire sur poids (VO2 / m) et l’âge des sujets sont distribués autour d’une même moyenne »
C’est en tout cas ce à quoi correspond le calcul du test de Student (t-test) entre les deux séries. Évaluer une hypothèse de ce type a du sens par exemple lorsque tu compares une grandeur au sein de deux populations (pour répondre à une question du type «y a-t-il une différence significative entre une quantité donnée que j’observe au sein d’un groupe patients souffrant d’une pathologie et la même quantité observée chez des sujets sains ») (moyennant quelques hypothèses à faire sur la normalité des données par exemple), mais en l’occurrence dans ton exemple on comprend bien qu’il n’y a aucune raison pour qu’une grandeur physiologique cardiologique puisse avoir des valeurs comparables avec des âges, ne serait-ce que parce que les unités des grandeurs que tu compares n’ont rien à voir.
Les p-values extrêmement faibles que tu observes reflètent justement que si tes sujets ont en moyenne disons autour de 50 ans, ils ont un VO2/masse d’en moyenne autour 2,5 ml / kg (je n’ai aucune idée d’une valeur typique de cette quantité, mais c’est pour l’exemple, et c’est très probablement assez loin de 50), et que ces âges de 50 (ans) n’ont rien à voir avec la distribution des volumes ventriculaires.
Ce qui est plus pertinent dans le cas d’une régression
Puis-ce qu’on parle ici de chercher des relations significatives entre des grandeurs, l’hypothèse à poser est différente. Ce que tu commences à faire est effectivement effectuer une régression linéaire, c’est à dire chercher des coefficients α et β tels que le modélisation suivante soit la meilleure possible:
VolumeVentriculaireSurMasse=α×Age+β
Ce qui est intéressant dans cette relation, c’est que d’une certaine manière le coefficient α te donnes une idée d’a quel point la relation est “forte” (dans un sens quantitatif et non de significativité) au sein des données (est-ce qu’on s’attend à ce que la première grandeur varie beaucoup en fonction de l’autre ou non). Dans le cas où il n’y a aucune relation entre ta première grandeur et ta seconde, on s’attend justement à ce que ce que ce coefficient α soit plutôt proche de zéro. Ça permet de formuler une hypothèse à évaluer de la forme:
H0: « Le coefficient α de ma régression est nul (traduisant une absence de relation)»
En posant proprement le cadre statistique dans lequel on travaille, on peut évaluer cette hypothèse, et par exemple décider de si on a pu trouver un coefficient de régression non nul à cause de “malchance” (i.e. à cause de trop de bruit par rapport à la taille de notre échantillon) ou pas, ou bien de savoir si un coefficient de régression qu’on trouverait 0,02 traduit une relation entre nos données significative mais de faible effet quantitatif (si on a gros échantillon ça permet justement de pouvoir exhiber des effets faibles) ou bien alors non-significative vis-à-vis de notre taille d’échantillon, etc.
Maintenant, comment faire en pratique ?
Ça c’était pour essayer de clarifier un peu comment on peut s’intéresser à la significativité d’une relation qu’on trouverait entre des données via une régression linéaire par exemple. J’espère ne pas avoir trop embrouillé (sinon n’hésite pas à me dire) et je suis resté un peu vague sur le “vrai cadre” dans lequel on se place pour formuler et évaluer les hypothèses, car suivant le positionnement de ton cours ce n’est pas forcément l’objectif principal. Ce qui peut maintenant t’intéresser c’est comment parler de tout ça avec Excel. Je ne suis pas très à l’aise sur le logiciel, mais de ce que je vois il est possible en même temps que tu calcules une régression, d’obtenir une table d’analyse de la régression que tu obtiens (voir ici par exemple). Ça te permet d’obtenir un tableau avec des valeurs pour quantifier plus précisément la relation que tu as trouvées. Ce qui peut t’intéresser toi est ce qui est situé sous la ligne ANOVA (tu as d’ailleurs peut-être déjà entendu parler de ce modèle, assez classique en bio-stats): tu as au choix la possibilité de regarder la “significativité totale de la corrélation que tu trouves” en regardant la F-significance (je ne rentre pas dans les détails, mais ça dépend si tu en as entendu parler dans ton cours et / ou si tu penses que c’est attendu), et les p-values associées à tes coefficients pour chacune des variables de ta régression (ça permet d’évaluer comme je te disais à quel point les coefficients sont significativement différents de zéro, et donc de s’il y a une relation significative entre tes variables).
TL;DR
Si tu veux juste savoir comment calculer les bonnes p-values : regarde ici, ça te permet d’obtenir les p-values associées à ton coefficient de régression, ce qui te donnes un indication supplémentaire à ton calcul de R2 sur la significativité entre l’association à tes variables. Et aussi fais des figures pour illustrer toutes les relations que tu trouves, c’est important pour être sûr et convaincu de tes résultats et avoir des idées pour aller éventuellement plus loin.