Supposons que nous disposons d’un jeu de données $\mathbb{X} = \lbrace x_1, x_2, \dots, x_n\rbrace$, avec $x_i \in \mathbb R^m$ pour tout $i$. Par exemple, le jeu MNIST est composé d’images de chiffres écrits à la main de taille 28*28 pixels. On peut donc le considérer comme un ensemble de vecteurs appartenant à $\mathbb R^{784}$, chaque pixel étant une composante du vecteur (comprise entre 0 et 255)1.
On souhaite estimer la distribution de probabilité $p_{data}$ de l’ensemble des données étudiées (toutes les images possibles de chiffres écrits à la main de taille 28*28px). Autrement dit, $p_{data} : \mathbb R^{784} \to [0, 1]$ nous donne la probabilité qu’une image de taille 28*28 soit un chiffre écrit à la main.
Pour cela, nous définissons un modèle $p_{model} : \mathbb R^{784} \to [0, 1]$ paramétré par un vecteur $\theta$. En d’autres termes, $p_{model}$ est une fonction dont l’expression dépend de $\theta$ et ayant pour objectif d’approximer $p_{data}$.
Pour simplifier les calculs, prenons une image à un seul pixel pouvant prendre une valeur réelle entre $0$ (noir) et $255$ (blanc). On pourrait alors modéliser la distribution réelle par une loi normale (restreinte à $[0, 255]$) :
Ici, $\theta = (\mu, \sigma)$.
Le maximum de vraisemblance (maximum likelihood) est un outil mathématique2 permettant de déterminer un $\theta$ optimal pour un type de modèle et un jeu de données fixés. Par optimal, j’entends qui maximise la probabilité que ce jeu de données (les $n$ images de chiffres écrits à la main) ait été tiré (parmi toutes les images de 28*28px) en suivant la distribution de probabilité $p_{model}$. On suppose les tirages indépendants.
Le maximum de vraisemblance $\theta^*$ s’exprime donc ainsi :
La syntaxe $p_{model}(.;\theta)$ signifie que $p_{model}$ est paramétrée par $\theta$. La deuxième équation s’obtient par indépendance des $x_i$.
Pour des raisons que je ne détaillerai pas ici, nous préférons manipuler une somme qu’un produit. Sans affecter le résultat, nous prenons donc le logarithme (fonction strictement croissante) de l’expression :
Il ne reste alors « plus qu’à » résoudre ce problème d’optimisation, par exemple à la main en calculant la dérivée de l’expression selon $\theta$ et en étudiant les points d’annulation ou de manière informatique avec une descente de gradient.