Salut,
Je trouve cela un peu confus.
La régression linéaire est une fonction mathématique
Ce n’est pas vraiment une fonction. C’est plutôt une procédure, qui consiste à trouver la « meilleure » droite pour représenter des données.
Quand on s’interroge sur l’évolution de notre salaire, l’évolution du prix de son loyer, d’une baguette de pain. En faites, on cherche à résoudre un problème de régression.
Pourquoi pas, sauf que la plupart du temps, si tant est que ce sont des problèmes de régression, il ne sont pas linéaires…
En faites, il existe d’autres types de régression non-linéaire.
Une petite définition : "Dont les variations peuvent être représentées par une ligne droite."
Commencer par définir quelque cose par "il existe des choses qui ne sont pas cette chose", c’est pas très efficace.
On cherche en faites à trouver l’équation d’une droite qui résume au mieux un nuage de points.
Cette phrase devrait être la première. C’est exactement l’idée importante.
On choisit un modèle, ici la régression linéaire.
Tu n’expliques pas pourquoi tu choisis ce modèle. Faire du linéaire quand les données le sont pas, c’est pas une très bonne idée typiquement.
Et je lui donne quoi comme paramètre ?
Généralement, on les génère de manières aléatoires !
Ben du coup, non. Vu que tu expliques que c’est pas du tout ce qu’on fait juste après.
on va maintenant obtenir la distance euclidienne
Le carré de la distance euclidienne en vérité.
Pour cela plusieurs algorithmes existent, comme les moindres carrés, mais nous allons voir la descente de gradient qui est l’algorithme le plus utilisé en ML !
Les moindres carrés, c’est la définition de la fonction coût habituelle, pas une méthode de minimisation en tant que tel. Si tu fais une descente de gradient sur ton MSE, tu fais les moindres carrés en fait.
Au passage, ta justification de "si l’erreur est négative, ça serait moins pratique" est foireuse. Si tu tentes de minimiser la formule sans valeur absolue ou carrés, il n’y a pas de minimum du tout en fait, donc c’est pas "moins pratique", c’est juste que ça n’a pas de sens, il n’y a rien à minimiser. En général, l’explication qu’on donne c’est sur la raison d’utiliser les carrés plutôt que les valeurs absolues (ce qui est une histoire de bonnes propriétés mathématiques des carrés).
Tes courbes sont un peu trompeuses aussi, parce que tu as deux paramètres à ajuster. Ça explique potentiellement bien la descente de gradient, mais ce n’est pas toute l’histoire pour trouver le minimum de la fonction de coût et donc trouver la droite de régression.
Tu ne parles pas du tout non plus de R, qui est pourtant assez intéressant dans l’interprétation du pouvoir prédictif du modèle linéaire pour les données.