Licence CC BY-NC

Probabilités version algébriste

Dernière mise à jour :
Auteur :
Catégorie :
Temps de lecture estimé : 4 minutes

Hello,

Un court billet pour mentionner un point de vue qui m’a toujours été utile. Il s’agit d’exprimer en termes d’algèbre linéaire classique (formes linéaires, formes bilinéaires) les notions les plus basiques des probabilités (espérance, covariance, variance, écart-type).

Je vais donc essayer de proposer un dictionnaire pour justifier un point de vue géométrique.

Dictionnaire probabilités-algèbre

Soit (Ω,A,P)(\Omega,A,\mathbf P) un espace probabilisé. Par exemple on pourrait prendre Ω\Omega la droite R\mathbf R, AA les boréliens de R\mathbf R et P\mathbf P une probabilité (par exemple gaussienne).

On considère XX une variable aléatoire, c’est-à-dire que X:ΩRX:\Omega\to \mathbf R est une fonction mesurable, où R\mathbf R est muni des boréliens de R\mathbf R. Pensez à une fonction continue (une fonction mesurable, ça n’est jamais qu’une fonction continue dans de nombreux cas de figures).

Tout au long de ce dictionnaire, on ne se posera pas les questions de convergence. Quitte à réduire l’ensemble des variables aléatoires considérées, on oublie ces questions d’ordre techniques.

Espérance

L’ensemble des variables aléatoires, notons le C(X)C(X). C’est un espace vectoriel sur R\mathbf R puisque l’addition de deux variables, et la multiplication par un scalaire donne encore une fonction mesurable et donc une variable aléatoire. Notons que le neutre est donné par la fonction identiquement nulle f(ω)=0f(\omega)=0 sur tout Ω\Omega.

Une façon très naturelle d’avoir une première forme linéaire quand on a une notion d’intégrale, c’est de faire une intégrale !

E[X]=ΩX(ω)dP(ω).\mathbf E[X] = \int_\Omega X(\omega) dP(\omega).

Cette forme linéaire, on l’appelle aussi l’espérance. C’est la première entrée de notre dictionnaire : l’espérance est une forme linéaire sur C(X)C(X).

Covariance

En réalité, C(X)C(X) est mieux qu’un espace vectoriel : on peut multiplier deux variables aléatoires en multipliant leurs images : (XY)(ω)=X(ω)Y(ω)(XY)(\omega)=X(\omega)Y(\omega).

On peut définir une forme bilinéaire par :

X,Y=E[(XE[X])(YE[Y])]\langle X,Y\rangle = \mathbf E[(X-\mathbf E[X])(Y-\mathbf E[Y])]

il s’avère qu’en fait, on appelle covariance cette forme bilinéaire.

Il est facile de vérifier la bilinéarité. Regardons le fait qu’elle est bien positive. En prenant X=YX=Y, on a (XE[X])(YE[Y])=(XE[X])2(X-\mathbf E[X])(Y-\mathbf E[Y]) = (X-\mathbf E[X])^2 et donc son espérance est bien positive.

Il est important de noter que même si cette forme est bilinéaire et positive, elle n’est a priori pas définie. Ce n’est donc pas un produit scalaire. En revanche, il est intéressant de la penser tout de même comme un produit scalaire.

Lorsque XX et YY sont indépendants, alors ils sont en un sens orthogonaux. En effet, si XX et YY sont indépendants, alors X,Y=0\langle X,Y\rangle = 0. La réciproque n’est pas vraie.

Variance

De cette forme bilinéaire, si elle était un produit scalaire on pourrait regarder la forme quadratique associée. La variance joue ce rôle :

Var(X)=X,X.Var(X) = \langle X,X\rangle.

Ce n’est pas une forme quadratique définie. En revanche, le reste est encore vrai : positivité, compatibilité avec la multiplication et décomposition de la somme par la forme polaire.

Donc la variance doit géométriquement être pensée comme la "longueur" de XX. C’est-à-dire son étendue, c’est-à-dire à quel point elle peut varier.

Ecart-type

L’écart-type est à la variance ce que la norme est à son carré. La variance est une forme quadratique, l’écart-type est sa racine carré. C’est donc une façon de penser la "longueur" de XX dans une unité plus sympathique.


Voilà, c’est tout ! Bonne journée, et je vous retrouve dans les commentaires si besoin :)

3 commentaires

Salut ! En faite c’est plutôt dans l’autre sens que le raisonnement se fait : tu considères une norme L2 sur ton espace. Une fois cela tu considères l’écart de ta distribution avec un vecteur constant. Cet écart atteint son minimum en la moyenne arithmétique. Dans le cadre d’un modélisation probabiliste cette moyenne arithmétique est l’espérance et la valeur de l’écart minimum la variance. Cela vient du fait que l’espérance est une notion de tendance centrale d’origine statistique. Celle de la norme L2, comme décrit de le paragraphe : “Solutions to variational problem” : Central Tendency. Comme indiqué dans l’article le même raisonnement variationnel sur des notions d’entropie explique le maximum de vraisemblance.

En espérant ne pas me tromper j’ai cru comprendre que l’omniprésence de l’espérance et de la variance en probabilité, et donc des moindres carrées / la norme L2 est dû au théorème centrale limite et donc des lois à faibles traines, où le poids donné par les moindres carrés aux outliers n’est pas un problème.

Édité par Akina

+0 -0

C’est aussi une façon d’approcher la chose. Mais n’étant pas analyste, je préfère une approche constructiviste où je vois petit à petit ce qu’il se passe.

Le choix d’une norme L2 ce n’est pas vraiment intrinsèque ni tout à fait évident. Mais j’admets que c’est aussi une bonne analyse de la situation, et probablement une meilleure étant donné la nature des objets (qui rend le choix d’une norme L2 comme quelque chose de classique)

+0 -0

L’approche de la distance est plus "géométrique" qu’analyste et tout aussi constructiviste : tu commence pareillement à définir une forme linéaire avec une intégrale puis un produit scalaire transformant ton espace en espace préhilbertien et tu définis les notions de tendance sur ta distribution à l’aide des notions géométriques. Cela permet d’exhiber le raisonnement derrière plutôt que les outils techniques, d’adapter les notions à tout les cadres et formalismes et de montrer les liens sous-jacents entre les différents indicateurs statistiques / paramètres probabilistes. Après, elle paraît certes moins rigoureuse et "prépa" dans l’esprit.

Une autre application est qu’il devient évident pour la norme L2 d’obtenir un produit scalaire et une norme véritable en faisant : sqrt(Var(X) + E(X)^2), où l’on perd cependant la distinction entre tendance centrale et dispersion. Cependant l’on comprend mieux certains points comme le dilemme biais / Variance si tu projette de manière intermédiaire sur R2 avec (E(X), Var(X)) : il y a au "centre" une zone d’efficacité que tu ne peux pas atteindre.

+0 -0
Vous devez être connecté pour pouvoir poster un message.
Connexion

Pas encore inscrit ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte