Normalité asymptotique locale

La normalité asymptotique locale, souvent abrégé en NAL ou LAN (de l'Anglais Local Asymptotic Normality) est une propriété de certains modèles statistiques. Informellement, un modèle statistique localement asymptotiquement normal a un rapport de vraisemblance dont la distribution peut être approximée par une loi normale sous certaines conditions, cette approximation découlant typiquement d'un développement limité d'ordre deux de la log-vraisemblance. Cette notion a été introduite par le mathématicien Lucien Le Cam, elle est exposée dans un article^[1] publié en 1960 coécrit avec Grace Lo Yang.

Définition informelle[modifier | modifier le code]

Considérons un modèle statistique générant $n$ données, dénotées par un vecteur $X_{n}$ de taille $n$ , et dépendant d'un paramètre $\theta$ . Notons $\ell _{n}$ la fonction de log-vraisemblance de ce modèle. Considérons deux valeurs du paramètre : $\theta _{0}$ et $\theta '$ . Supposons que les données $X_{n}$ soient générées par ce modèle avec $\theta _{0}$ comme valeur de paramètre, et définissons la variables aléatoire $\delta \ell _{\theta ',\,\theta _{0}}(X_{n})=\ell _{n}(X_{n},\theta ')-\ell _{n}(X_{n},\theta )$ , correspondant à la différence des log-vraisemblances évaluées en $\theta '$ et en $\theta$ .

Si le modèle considéré est asymptotiquement localement normal en $\theta _{0}$ , alors la loi de la variable aléatoire $\delta \ell _{\theta ',\,\theta _{0}}(X_{n})$ peut être approximée par une loi normale. Cette approximation est valable pour $n$ grand (d'où le asymptotiquement) et pour tout $\theta '$ proche de $\theta _{0}$ (d'où le localement).

La condition $n$ grand est rendue rigoureuse en utilisant la notion de convergence en loi. La condition et $\theta '$ proche de $\theta _{0}$ est quant à elle traduite par le fait que et $\theta '$ est de la forme $\theta _{0}+r_{n}h$ avec $r_{n}$ une suite de constantes tendant vers 0 (par exemple $r_{n}=1/{\sqrt {n}}$ dans le cas de données indépendantes et identiquement distribuées), de sorte que plus $n$ est grand, plus $\theta '$ est proche de $\theta _{0}$ .

La variable aléatoire $\delta \ell _{\theta ',\,\theta _{0}}(X_{n})$ est la statistique utilisée pour faire un test du rapport de vraisemblance. Elle souvent abusivement appelée rapport de vraisemblance même s'il s'agit en réalité du logarithme du rapport de vraisemblance.

Cas de données indépendantes et identiquement distribuées[modifier | modifier le code]

Définition de la normalité asymptotique locale[modifier | modifier le code]

Soit $n$ variables aléatoires $X_{1},\cdots ,X_{n}$ indépendantes et identiquement distribuées (iid) selon une distribution $P_{\theta }$ , dépendant d'un paramètre $\theta \in \mathbb {R} ^{k}$ . Notons sa fonction de vraisemblance $p_{\theta }(X)$ . La log-vraisemblance $\ell (\theta ;X_{1},\cdots ,X_{n})$ de l'échantillon aléatoire $X_{1},\cdots ,X_{n}$ s'écrit comme la somme des log-vraisemblances de chaque observation, $\ell (\theta ;X_{1}\cdots ,X_{n})=\sum _{i=1}^{n}\log \left(p_{\theta }(X_{i})\right)$ , car les données sont iid.

Appelons $P_{\theta }^{n}$ le modèle statistique générant ces $n$ variables aléatoires. $P_{\theta }^{n}$ est localement asymptotiquement normal si lorsque $X_{1},\cdots ,X_{n}$ est distribué selon $P_{\theta }^{n}$ ,

\forall h\in \mathbb {R} ^{k}

,

\ell \left(\theta +h/{\sqrt {n}};X_{1},\cdots ,X_{n}\right)-\ell \left(\theta ;X_{1},\cdots ,X_{n}\right)\xrightarrow {\mathcal {L}} {\mathcal {N}}\left(-{\frac {1}{2}}h^{T}I_{\theta }h\,;h^{T}I_{\theta }h\right)

,

où $\xrightarrow {\mathcal {L}}$ désigne la converge en loi et ${\mathcal {N}}\left(-{\frac {1}{2}}h^{T}I_{\theta }h\,;h^{T}I_{\theta }h\right)$ désigne une loi normale d'espérance $h^{T}I_{\theta }$ et de variance $h^{T}I_{\theta }h$ . La matrice $I_{\theta }$ est l'information de Fisher du modèle, définie comme $I_{\theta }=-\mathbb {E} _{\theta }\left[{\frac {\partial ^{2}\log(p_{\theta }(X))}{\partial \theta ^{2}}}\right]$ .

Établissement non rigoureux de la normalité asymptotique locale[modifier | modifier le code]

Donnons ici l'intuition, informelle, de la normalité asymptotique locale dans le cas de données iid. Plaçons nous dans le cas $k=1$ (c'est-à-dire $\theta$ univarié) et effectuons un développement de Taylor de la log-vraisemblance en $\theta$

{\begin{array}{ccl}\ell (\theta +h/{\sqrt {n}};X_{1},\cdots ,X_{n})&=&\sum _{i=1}^{n}\log \left(p_{\theta +h{\sqrt {n}}}(X_{i})\right)\\&\approx &\sum _{i=1}^{n}\log \left(p_{\theta }(X_{i})\right)+{\frac {h}{\sqrt {n}}}{\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{i})\right)+{\frac {h^{2}}{2n}}{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log \left(p_{\theta }(X_{i})\right)\\&=&\ell (\theta ;X_{1},\cdots ,X_{n})+h{\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}{\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{i})\right)-{\frac {h^{2}}{2}}{\frac {1}{n}}\sum _{i=1}^{n}-{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log \left(p_{\theta }(X_{i})\right)\,.\end{array}}

De sorte que

l(\theta +h/{\sqrt {n}};X_{1},\ldots X_{n})-l(\theta ;X_{1},\ldots X_{n})\approx h{\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}{\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{i})\right)-{\frac {h^{2}}{2}}{\frac {1}{n}}\sum _{i=1}^{n}-{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log \left(p_{\theta }(X_{i})\right)\,.

Comme $X_{1},\ldots ,X_{n}$ sont iid, le premier terme de cette différence , ${\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}{\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{i})\right)$ est une somme de variables aléatoires iid, ${\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{1})\right),\ldots ,{\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{n})\right)$ , divisée par ${\sqrt {n}}$ . Ces variables ont pour espérance $\mathbb {E} \left[{\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{i})\right)\right]=0$ (d'après la première identité de Bartlett) et pour variance $\mathrm {var} \left({\frac {\partial }{\partial \theta }}\log(p_{\theta }(X))\right)=I_{\theta }$ (d'après la seconde identité de Bartlett), où comme précédemment, $I_{\theta }$ désigne l'information de Fisher. Le théorème central limite implique alors que ${\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}{\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{i})\right)$ converge en distribution vers une loi normale d'espérance nulle et de variance $I_{\theta }$ :

{\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}{\frac {\partial }{\partial \theta }}\log \left(p_{\theta }(X_{i})\right)\xrightarrow {\mathcal {L}} {\mathcal {N}}(0,I_{\theta })

.

Comme $X_{1},\ldots ,X_{n}$ sont iid, second terme du développement de Taylor, ${\frac {1}{n}}\sum _{i=1}^{n}-{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log \left(p_{\theta }(X_{i})\right)$ , est aussi une somme de variables aléatoires iid, divisée par $n$ . Ces variables aléatoires ont pour espérance $\mathbb {E} _{\theta }\left[-{\frac {\partial ^{2}\log(p_{\theta }(X))}{\partial \theta ^{2}}}\right]=I_{\theta }$ . La loi des grands nombres implique donc que ce terme converge en probabilité vers $I_{\theta }$ :

{\frac {1}{n}}\sum _{i=1}^{n}-{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log \left(p_{\theta }(X_{i})\right)\xrightarrow {\mathbb {P} } I_{\theta }

On a donc asymptotiquement $\ell (\theta +h/{\sqrt {n}};X_{1},\cdots ,X_{n})-\ell (\theta ;X_{1},\cdots ,X_{n})\approx hZ-{\frac {h^{2}}{2}}I_{\theta }$ où $Z$ est une variable aléatoire normale d'espérance nulle et de variance $I_{\theta }$ , ce qui implique que, asymptotiquement, $\ell (\theta +h/{\sqrt {n}};X_{1},\cdots ,X_{n})-\ell (\theta ;X_{1},\cdots ,X_{n})$ suit approximativement une loi normale d'espérance ${\frac {h^{2}}{2}}I_{\theta }$ et de variance $h^{2}I_{\theta }$ .

Si le développement précédent avait été fait plus rigoureusement et qu'une convergence en loi avait été établie au lieu du "suit approximativement" de la phrase précédente, cela correspondrait à la définition de la normalité asymptotique locale.

Ce développement, fait sans rigueur dans le but de donner une intuition de la normalité asymptotique locale, peut être rendu rigoureux si le modèle $P_{\theta }$ satisfait certaines conditions. Il faut en particulier, pour que les formules écrites ci-dessus aient du sens, que sa log-vraisemblance soit deux fois dérivable, et que ces dérivées aient des moments finis, mais ces conditions seules ne sont pas suffisantes. Une condition suffisante (mais pas nécessaire) est la différentiabilité en moyenne quadratique.

Différentiabilité en moyenne quadratique[modifier | modifier le code]

Si le modèle statistique $P_{\theta }$ est différentiable en moyenne quadratique, alors, le modèle $P_{\theta }^{n}$ , générant $n$ variables aléatoires iid selon $P_{\theta }$ est localement asymptotiquement normal.

Un modèle est différentiable en moyenne quadratique en $\theta$ s'il existe ${\dot {\ell }}(\theta )\in \mathbb {R} ^{k}$ tel que pour tout $h$ , $\int \left({\sqrt {p_{\theta }+h}}-{\sqrt {p_{\theta }}}-{\frac {1}{2}}h^{T}{\dot {\ell }}(\theta ){\sqrt {p_{\theta }}}\right)^{2}=o(\lVert h\rVert ^{2})$ où $p_{\theta }$ est la vraisemblance du modèle $P_{\theta }$ et l'intégrale est prise sur le support de $p_{\theta }$ et le $o$ désigne la notation de Landau au voisinage de 0^[2].

Beaucoup de modèles classiques (par exemple le modèle normal, exponentiel, Poisson) sont différentiables en moyenne quadratique, et le vecteur ${\dot {\ell }}(\theta )$ correspond à la dérivée de la log-vraisemblance. Une exception notable est la loi uniforme sur un intervalle $[0,\theta ]$ qui n'est pas différentiable en moyenne quadratique, et n'est d'ailleurs pas non plus localement asymptotiquement normal.

Définition générale[modifier | modifier le code]

La définition ci-dessous donne une notion de la normalité asymptotique locale plus générale, qui ne s'applique pas qu'à des variables aléatoires iid.

Une suite $P_{\theta }^{n}$ de modèles statistiques de paramètre $\theta \in \mathbb {R} ^{k}$ est localement asymptotiquement normale si il existe :

une suite de matrices carrées inversibles $r_{n}\in {\mathcal {M}}_{k}(\mathbb {R} )$ ,
une matrice carrée $I_{\theta }\in {\mathcal {M}}_{k}(\mathbb {R} )$ ,
une suite vecteurs aléatoires $\Delta _{n,\theta }$ telle que $\Delta _{n,\theta }\xrightarrow {\mathcal {L}} {\mathcal {N}}(0,I_{\theta })$ ,

tels que pour toute suite $h_{n}$ de $\mathbb {R} ^{k}$ convergeant vers $h\in \mathbb {R} ^{k}$ , on ait

\log \left[{\frac {\mathrm {d} P_{\theta +r_{n}^{-1}h_{n}}^{n}}{\mathrm {d} P_{\theta }^{n}}}(X_{1},\ldots ,X_{n})\right]=h^{T}\Delta _{n,\theta }-{\frac {1}{2}}h^{T}I_{\theta }h+o_{P}(1)

lorsque $X_{1},\ldots ,X_{n}$ sont générés par $P_{\theta }^{n}$ ^[3].

Ici, la notation ${\frac {\mathrm {d} P_{\theta +r_{n}^{-1}h_{n}}^{n}}{\mathrm {d} P_{\theta }^{n}}}$ désigne la dérivée de Radon-Nykodym de la mesure de probabilité du modèle $P_{\theta +r_{n}^{-1}h_{n}}^{n}$ par rapport à la mesure du modèle $P_{\theta }^{n}$ . Le modèle $P_{\theta +r_{n}^{-1}h_{n}}^{n}$ correspond au modèle $P_{\theta }^{n}$ à la différence que le paramètre $\theta$ est changé en $\theta +r_{n}^{-1}\,h_{n}$ , la suite $r_{n}$ étant typiquement de norme tendant vers l'infini. En pratique, ${\frac {\mathrm {d} P_{\theta +r_{n}^{-1}h_{n}}^{n}}{\mathrm {d} P_{\theta }^{n}}}$ correspond au rapport de la vraisemblance du modèle évaluée en $\theta +r_{n}^{-1}\,h_{n}$ sur la vraisemblance du modèle évaluée en $\theta$ .

La notation $o_{P}(1)$ désigne ici une variable aléatoire tendant vers 0 en probabilités. Même si cela n'est pas rendu explicite, il faut noter que ce terme $o_{P}(1)$ peut dépendre de $\theta$ , de sorte que la convergence n'es pas uniforme par rapport à $\theta$ .

Comme le vecteur $h^{T}\Delta _{n,\theta }-{\frac {1}{2}}h^{T}I_{\theta }h$ suit une loi normale d'espérance $-{\frac {1}{2}}h^{T}I_{\theta }h$ et de variance $h^{T}I_{\theta }h$ , cette définition s'interprète souvent comme imposant que le log du rapport de vraisemblance suive asymptotiquement une loi normale ${\mathcal {N}}(-{\frac {1}{2}}h^{T}I_{\theta }h\,,\,h^{T}I_{\theta }h)$ d'espérance $-{\frac {1}{2}}h^{T}I_{\theta }h$ et de variance $h^{T}I_{\theta }h$ .

Dans le cas de données iid, $I_{\theta }$ correspond à l'information de Fisher et la suite de matrice $r_{n}$ est simplement $r_{n}={\sqrt {n}}\,I_{k}$ où $I_{k}$ est la matrice identité de $\mathbb {R} ^{k}$ .

Lien avec la contiguïté[modifier | modifier le code]

En reprenant les notations précédentes, la normalité asymptotique locale d'un modèle statistique $P_{\theta }$ implique la contiguïté mutuelle des mesures $P_{\theta }$ et $P_{\theta +r_{n}^{-1}h_{n}}$ (ou $P_{\theta +h/{\sqrt {n}}}$ dans le cas d'un modèle iid).

Théorème — Soit $P_{\theta }$ un modèle statistique de paramètre $\theta \in \mathbb {R} ^{k}$ . Si $P_{\theta }$ est localement asymptotiquement normal, alors $P_{\theta }\triangleleft \triangleright P_{\theta +r_{n}^{-1}h_{n}}$ , où $h_{n}$ est une suite de $\mathbb {R} ^{k}$ convergeant vers $k\in \mathbb {R} ^{k}$ et $r_{n}$ est la suite de matrice telle que définie dans la définition générale de la normalité asymptotique locale de $P_{\theta }$ .

La preuve de ce résultat découle du premier lemme de Le Cam.

Démonstration

Comme $P_{\theta }$ est localement asymptotiquement normal, il existe une suite de matrices inversibles $r_{n}$ et une matrice $I_{\theta }$ telles que pour toute suite $h_{n}$ convergeant vers un $h\in \mathbb {R} ^{k}$ , $\log \left({\frac {\mathrm {d} P_{\theta +r_{n}^{-1}h_{n}}}{\mathrm {d} P_{\theta }}}\right)$ converge en distribution vers une loi normale ${\mathcal {N}}(-{\frac {1}{2}}h^{T}I_{\theta }h\,,\,h^{T}I_{\theta }h)$ . Cela implique, puisque l'application exponentielle est continue, que ${\frac {\mathrm {d} P_{\theta +r_{n}^{-1}h_{n}}}{\mathrm {d} P_{\theta }}}$ converge en distribution vers une loi log-normale de paramètres $\mu =-{\frac {1}{2}}h^{T}I_{\theta }h$ et $\sigma ^{2}=h^{T}I_{\theta }h$ . On a donc que l'espérance de la limite en loi de ${\frac {\mathrm {d} P_{\theta +r_{n}^{-1}h_{n}}}{\mathrm {d} P_{\theta }}}$ vaut $e^{\mu +\sigma ^{2}/2}=e^{0}=1$ . Par ailleurs, On a donc, pour reprendre les termes exacts du lemme, que si une sous suite de ${\frac {\mathrm {d} P_{\theta +r_{n}^{-1}h_{n}}}{\mathrm {d} P_{\theta }}}$ convergeant en loi vers une variable $U$ , alors $E[U]=1$ (puisque $U$ est de loi log-normale), et donc $P_{\theta +r_{n}^{-1}h_{n}}\triangleleft P_{\theta }$ . Par ailleurs, comme la loi log-normale à pour support $]0;+\infty [$ , $U$ vérifie nécessairement que $P(U>0)=1$ , et donc, $P_{\theta }\triangleleft P_{\theta +r_{n}^{-1}h_{n}}$ . Finalement, $P_{\theta }\triangleleft \triangleright P_{\theta +r_{n}^{-1}h_{n}}$ .

Application[modifier | modifier le code]

Une application de la normalité asymptotique locale découle d'un corollaire du 3ème lemme de Le Cam. Ce corollaire permet de connaître la distribution asymptotique d'une statistique $T(X^{n})$ si les variables aléatoires $X^{n}$ sont générées par un modèle statistique dont le paramètre n'est pas fixe, mais converge vers une valeur fixe $\theta$ . On parle de connaître la distribution asymptotique de $T(X^{n})$ sous une suite d'alternatives, ou encore de changement de mesure.

Ce corollaire stipule que si

$T(X^{n})$ est une statistique à valeurs dans $\mathbb {R} ^{p}$ ,
$P_{n}$ et $Q_{n}$ sont deux suites de mesures (ou modèles statistiques), telles que le vecteur $\left(T(X^{n})\,,\,\log {\frac {\mathrm {d} Q_{n}}{\mathrm {d} P_{n}}}\right)\,\xrightarrow {\mathcal {L}} \,{\mathcal {N}}\left(\left({\begin{array}{c}\mu \\-\sigma ^{2}/2\end{array}}\right)\,,\,\left({\begin{array}{cc}\Sigma &\tau \\\tau ^{T}&\sigma ^{2}\end{array}}\right)\right)$ pour $\mu ,\tau ,\sigma \in \mathbb {R} \times \mathbb {R} \times \mathbb {R} _{+}$ , lorsque les $X^{n}$ sont générés par $P_{n}$ ,

alors, la statistique $T(X^{n})\xrightarrow {\mathcal {L}} \,{\mathcal {N}}(\mu +\tau \,,\,\Sigma )$ lorsque les $X^{n}$ sont générés par $Q_{n}$ .

Choisir $P_{n}=P_{\theta }^{n}$ et $Q_{n}=P_{\theta +h/{\sqrt {n}}}^{n}$ avec un modèle $P_{\theta }^{n}$ localement asymptotiquement permet généralement de satisfaire les hypothèses du corollaire. Cela permet alors de connaitre la distribution de $T(X^{n})$ lorsque le paramètre qui génère les données $X^{n}$ n'est pas $\theta$ mais $\theta +h/{\sqrt {n}}$ .

La normalité asymptotique de $P_{\theta }^{n}$ n'implique pas directement que les hypothèses du 3ème lemme de Le Cam soient satisfaites, mais elle y aide. En effet, la normalité asymptotique locale implique que $\log {\frac {\mathrm {d} P_{\theta +h/{\sqrt {n}}}^{n}}{\mathrm {d} P_{\theta }^{n}}}$ converge en loi vers une distribution normale ${\mathcal {N}}(-\sigma ^{2}/2\,,\,\sigma ^{2})$ , avec $\sigma ^{2}=h^{T}I_{\theta }h$ .

Il est par ailleurs assez classique pour une statistique $T(X^{n})$ d'avoir une distribution asymptotique de la forme ${\mathcal {N}}(\mu ,\Sigma )$ . Il ne reste alors généralement qu'à montrer que le vecteur $\left(T(X^{n})\,,\,\log {\frac {\mathrm {d} P_{\theta +h/{\sqrt {n}}}^{n}}{\mathrm {d} P_{\theta }^{n}}}\right)$ est un vecteur gaussien (car deux vecteurs gaussiens ne forment pas nécessairement un vecteur gaussien lorsqu'ils sont concaténés), ce qui est généralement faisable.

Voir aussi[modifier | modifier le code]

Références[modifier | modifier le code]

↑ Lucien Le Cam et Grace Lo Yang, « Locally Asymptotically Normal Families », dans Springer Series in Statistics, Springer US, 1990 (ISBN 978-1-4684-0379-4, lire en ligne), p. 52–98
↑ « Elisabeth Gassiat, Statistiques Asymptotiques-Note de cours-M2 »
↑ A. W. van der Vaart, Asymptotic Statistics, Cambridge University Press, 13 octobre 1998 (ISBN 978-0-511-80225-6, 978-0-521-49603-2 et 978-0-521-78450-4, lire en ligne)

[1] Lucien Le Cam et Grace Lo Yang, « Locally Asymptotically Normal Families », dans Springer Series in Statistics, Springer US, 1990 (ISBN 978-1-4684-0379-4, lire en ligne), p. 52–98

[2] « Elisabeth Gassiat, Statistiques Asymptotiques-Note de cours-M2 »

[3] A. W. van der Vaart, Asymptotic Statistics, Cambridge University Press, 13 octobre 1998 (ISBN 978-0-511-80225-6, 978-0-521-49603-2 et 978-0-521-78450-4, lire en ligne)

[1]

[2]

[3]