Regression linéaire - conditions sur les erreurs pourquoi ? • Forum • Zeste de Savoir

InaDeepThink, vendredi 03 mars 2023 à 04h40

Bonjour,

En data science quand on étudie la régression linéaire d’un point de vue mathématiques on a souvent l’hypothèse suivante:

On a des points $y_i = x_i\beta + \epsilon_i$ avec $\epsilon_i$ qui est une variable aléatoire. Je ne comprends pas pourquoi on parle de variable aléatoire, de probabilité alors que tout est déterministe.

Si on observe les données $\{(y_i, x_i)\}$ alors en prenant $\beta = \min_\beta \frac{1}{n}\lVert y_i - x_i\beta \rVert^2$ , on peut écrire chacune des données comme: $y_i = x_i\beta + \epsilon_i$ et donc $\epsilon_i$ est complètement déterministe, ce n’est pas une variable aléatoire. $\epsilon_i$ est tout simplement égale à : $y_i-x_i\beta$ .

Pareil pour les différentes hypothèses d’applications d’une régression linéaire je ne comprends pas pourquoi on en a besoin (moyenne des erreurs nulles, …). Tant que : $\beta = \min_\beta \frac{1}{n}\lVert y_i - x_i\beta \rVert^2$ est bien défini on peut appliquer le modèle sur nos données sans problèmes…

Merci beaucoup !

03/03/23 à 04h40

+0 -0

Rowin, vendredi 03 mars 2023 à 11h07

Mes cours sur ce sujet remontent un peu, tu m’excusera si ma réponse manque un peu de précision !

Ce que tu pointes (le fait que $\epsilon_i = y_i - x_i \beta$ ) n’est absolument pas incompatible avec le fait que $\epsilon_i$ suive une loi aléatoire.

Tes points observés ne sont pas parfaitement sur la droite que tu détermines avec ta régression linéaire. Ils sont un peu au dessus, un peu en dessous… De manière aléatoire ! Tu peux effectivement calculer cette erreur à posteriori comme tu le soulignes, mais elle reste aléatoire "au moment de la mesure".

Je ne suis pas sûr que la moyenne des erreurs nulle soit une hypothèse d’application de la régression linéaire. Ça serait plutôt une conséquence du modèle appliqué : on considère que l’erreur dont est entaché chaque point suit une même loi aléatoire, donc on choisit une droite qui fait que en moyenne l’erreur est nulle.

03/03/23 à 11h07

+0 -0

Aabu, vendredi 03 mars 2023 à 11h27
Modifié

Salut,

Il y a différents points de vue possibles sur la régression linéaire.

Il y a un point de vue purement descriptif, qui consiste à dire qu’on cherche à trouver la meilleure droite pour représenter un ensemble de points donnés. On se fixe un critère pour minimiser l’erreur ; souvent, c’est le critère des moindres carrés et on minimise alors l’erreur quadratique moyenne. C’est un problème d’optimisation bête et méchant, et à la fin, on obtient la meilleure droite. Ça peut être une droite bien merdique et qui n’a aucun sens, mais ça sera la meilleure pour ces données-là.

L’autre point de vue est plus statistique (et plus riche). On se donne un modèle statistique (linéaire en l’occurrence) défini par des paramètres. C’est là qu’on se met à parler de variables aléatoires, parce que ce sont les objets mathématiques, issus de la théorie des probabilités, qui constituent le modèle statistique. Les données mesurées sont des observations de ce modèle, et on peut s’en servir pour faire des estimations des paramètres (moindres carrés, maximum de vraisemblance, etc.). À la fin, ça revient à la première approche, mais on regarde ça comme un processus aléatoire avec certaines propriétés.

Là où les hypothèses interviennent, c’est quand on cherche à évaluer la qualité de l’estimation ou prouver des propriétés générales sur la méthode (estimateur non-biaisé par exemple, ou le fait qu’il minimise bien la variance, etc). Un exemple très simple de souci, c’est un instrument de mesure qui donne toujours 10 % de plus qu’attendu, quoi qu’il arrive (ce n’est pas une erreur gaussienne centrée en zéro) : tu vas estimer le paramètre linéaire comme étant 10 % de plus que ce qu’il est vraiment et donc ton estimation ne correspond pas forcément à ce que tu voulais.

03/03/23 à 11h27
Modifié

+3 -0

InaDeepThink, vendredi 03 mars 2023 à 16h40

L’autre point de vue est plus statistique (et plus riche). On se donne un modèle statistique (linéaire en l’occurrence) défini par des paramètres. C’est là qu’on se met à parler de variables aléatoires, parce que ce sont les objets mathématiques, issus de la théorie des probabilités, qui constituent le modèle statistique. Les données mesurées sont des observations de ce modèle, et on peut s’en servir pour faire des estimations des paramètres (moindres carrés, maximum de vraisemblance, etc.). À la fin, ça revient à la première approche, mais on regarde ça comme un processus aléatoire avec certaines propriétés.

Merci je crois que je comprends mieux! Je reformule ce que tu as dit histoire de voir que tout est clair dans ma tête.

On raisonne dans deux sens différents. Dans le premier on a nos données sur lesquelles on ne fait aucune hypothèses et on essaie de trouver la meilleur droite qui passe par ces points. Cette droite est donné par OLS=>ok.

Dans le deuxième cas on raisonne dans le sens inverse. On suppose qu’on a des données qui suivent une régression linéaire. Donc ces données peuvent s’écrire: $y_i = x_i\beta + \epsilon_i$ avec $\epsilon_i$ aléatoire du à des erreurs de mesures. On étudie alors à quelle point le modèle linéaire estime bien ces données. On donne alors des hypothèses sur les erreurs (variance fixe…) pour pouvoir avoir des estimations générale sur ce modèle.

03/03/23 à 16h40

+0 -0

Regression linéaire - conditions sur les erreurs pourquoi ?

Pas encore membre ?