Loi binomiale négative

Binomiale négative

Fonction de masse pour plusieurs valeurs de $n$ et pour une loi de moyenne 10.

Paramètres	$n\in \mathbb {N} ^{*}$ ^[1] $p\in \,]0,1]$ $q=1-p$
Support	$\mathbb {N}$
Fonction de masse	${\binom {k+n-1}{k}}p^{n}\,q^{k}$
Fonction de répartition	$I_{p}(n,k+1){\text{ où }}I_{p}$ est la fonction bêta incomplète régularisée
Espérance	${\frac {nq}{p}}$
Mode	$\left\lfloor {\frac {(n-1)\,q}{p}}\right\rfloor \mathbf {1} _{n\geq 1}$
Variance	${\frac {nq}{p^{2}}}$
Asymétrie	${\frac {q+1}{\sqrt {nq}}}$
Kurtosis normalisé	${\frac {6q+p^{2}}{nq}}$
Fonction génératrice des moments	$\left({\frac {p}{1-q\operatorname {e} ^{t}}}\right)^{n}$
Fonction caractéristique	$\left({\frac {p}{1-q\operatorname {e} ^{\mathrm {i} t}}}\right)^{n}$
Fonction génératrice des probabilités	$\left({\frac {p}{1-qt}}\right)^{n}$
modifier

En probabilité et en statistiques, une loi binomiale négative est la distribution de probabilité discrète du nombre d'échecs dans une série d'épreuves de Bernoulli indépendantes et identiquement distribuées jusqu'à avoir un nombre fixe $n$ de succès. Par exemple, c'est la distribution de probabilité du nombre de piles obtenus dans une série de pile ou face jusqu'à avoir vu $n$ faces. Plus précisément, elle décrit la situation suivante : une expérience consiste en une série de tirages indépendants, donnant un succès avec probabilité $p$ (constante durant toute l'expérience) et un échec avec une probabilité complémentaire 1- $p$ . Cette expérience se poursuit jusqu'à l'obtention d'un nombre donné $n$ de succès. La variable aléatoire représentant le nombre d'échecs, avant l'obtention du nombre donné $n$ de succès, suit alors une loi binomiale négative. Ses paramètres sont : le nombre $n$ de succès attendus, et la probabilité $p$ d'un succès. Le paramètre $n$ se note parfois $r$ , comme sur l'illustration ci-contre.

La loi se généralise à deux paramètres $r$ et $p$ , où $r$ peut prendre des valeurs réelles strictement positives. Cette généralisation est aussi connue sous le nom de loi de Pólya^[2], en l'honneur du mathématicien George Pólya.

Définition[modifier | modifier le code]

Définition pour un premier paramètre entier[modifier | modifier le code]

La loi binomiale négative dépend de deux paramètres, mais plusieurs autres paramétrisations sont envisageables. Une paramétrisation très répandue introduit un entier naturel $n$ non nul et un réel non nul^[3] $p$ compris entre 0 et 1. Il est courant d'introduire la probabilité complémentaire $q = 1 - p$ . La fonction de masse d'une variable aléatoire distribuée selon une loi binomiale négative de paramètres $n$ et $p$ prend la forme suivante :

$f(k;n,p)={k+n-1 \choose k}p^{n}q^{k}~~~\forall k=0,1,\dots$

où ${k+n-1 \choose k}$ est un coefficient binomial.

La loi binomiale négative s'interprète comme la loi de probabilité de la variable aléatoire $X$ qui compte le nombre d'échecs observés avant l'obtention de $n$ succès pour une série d'expériences indépendantes, sachant que la probabilité d'un succès est $p$ . Ainsi^[4]^,^[5]

$\mathbb {P} (X=k)=f(k;n,p)={k+n-1 \choose k}\,p^{n}\,q^{k}={k+n-1 \choose n-1}p^{n}q^{k}~~~\forall k=0,1,\dots$

La fonction de masse de la binomiale négative peut aussi s'écrire sous la forme

$f(k;n,p)={-n \choose k}p^{n}(-q)^{k}~~~\forall k=0,1,\dots$

où ${-n \choose k}$ est un coefficient binomial généralisé à un entier négatif et est défini par ${-n \choose k}={\frac {(-n)(-n-1)\cdots (-n-k+1)}{k!}}$ .Cette expression justifie le nom de loi binomiale négative donnée à cette loi de probabilité. Elle facilite aussi, grâce à l'usage de la formule du binôme négatif, le calcul de son espérance $\mathbb {E} [X]={\frac {nq}{p}}$ et de sa variance $Var(X)={\frac {nq}{p^{2}}}$ .

Si une variable aléatoire $X$ suit une loi binomiale négative de paramètres $n$ et $p$ on pourra alors noter^[6] $X\sim {\mathcal {BN}}(n,p)$ .

Définitions alternatives[modifier | modifier le code]

On trouve parfois la définition alternative suivante : la loi binomiale négative^[7] de paramètres $n$ et $p$ , aussi appelée loi de Pascal pour la distinguer de la première définition^[8], est la loi de la variable aléatoire $Y$ comptant le nombre d'essais nécessaires avant l'obtention de $n$ succès. Ainsi $\mathbb {P} (Y=m)={m-1 \choose m-n}p^{n}q^{m-n}={m-1 \choose n-1}p^{n}q^{m-n}~~~\forall m=n,n+1,\dots$ Les deux fonctions de masse (pour $X$ et pour $Y$ ) se déduisent l'une de l'autre par la substitution $Y = X + n$ et $m = k + n$ , ainsi

$\mathbb {E} [X]=\mathbb {E} [Y]-n={\frac {n}{p}}-n={\frac {nq}{p}}{\text{ et }}\operatorname {Var} (X)=\operatorname {Var} (Y)={\frac {nq}{p^{2}}}$ .

La loi binomiale négative est parfois définie comme le nombre de succès observés avant l'obtention du nombre donné $n$ d'échecs, conduisant à intervertir le rôle des paramètres $p$ et $q$ ainsi que les mots « succès » et « échec ».

Dans la suite, on prendra la première définition pour définir de la loi binomiale négative.

Généralisation à un premier paramètre réel[modifier | modifier le code]

Il est possible de généraliser la définition de la loi binomiale négative à un paramètre $r$ réel strictement positif (qui remplace alors le paramètre entier $n$ ) en utilisant des coefficients binomiaux généralisés. Plus précisément, pour $r$ réel strictement positif et $p$ réel non nul entre 0 et 1, la loi binomiale négative (généralisée) de paramètres $r$ et $p$ est la loi discrète définie par la fonction de masse

$f(k;r,p)={k+r-1 \choose k}p^{r}q^{k}={\frac {(k+r-1)_{k}}{k!}}p^{r}q^{k}={\frac {\Gamma (k+r)}{k!\Gamma (r)}}p^{r}q^{k}~~~\forall k=0,1,\dots$

où $(x)_{k}=x(x-1)\dots (x-k+1)$ désigne la factorielle décroissante et $\Gamma$ désigne la fonction gamma. Cette définition reste bien sûr compatible avec la définition dans le cas d'un paramétrage entier. La loi binomiale négative généralisée à un paramètre réel s'appelle parfois Loi de Pólya^[2]. Dans le cadre de cette généralisation, il n'est plus possible d'interpréter la loi en termes de nombres de succès.

Propriétés[modifier | modifier le code]

Fonction de répartition[modifier | modifier le code]

La fonction de répartition peut s'exprimer à l'aide de la fonction bêta incomplète régularisée :

$F(k)=I_{p}(n,k+1)$ .

Une démonstration par récurrence sur $k$ prouve que

$F(k)=1-q^{k+1}\,\sum _{i=0}^{n-1}{k+i \choose i}\,p^{i}$ .

Mélange de lois Gamma-Poisson[modifier | modifier le code]

La loi binomiale négative (généralisée) avec paramètres $r$ réel strictement positif et $p=(1+\theta )^{-1}$ où $θ$ est un réel strictement positif est égale à un mélange de lois Gamma-Poisson où $r$ et $θ$ sont les paramètres de la loi Gamma.

Démonstration

Soit $X_{\lambda }$ suivant une loi de Poisson de paramètre $λ$ et $f(\lambda ;r,\theta )$ la densité de la loi Gamma de paramètres $r$ et $θ$ (réels strictement positifs). Si $X$ désigne la variable aléatoire issue du mélange alors pour tout entier $k$ on a

{\begin{aligned}\mathbb {P} (X=k)&=\int _{0}^{+\infty }\mathbb {P} (X_{\lambda }=k)\,f(\lambda ;r,\theta )\,\mathrm {d} \lambda \\&=\int _{0}^{+\infty }{\dfrac {\lambda ^{k}\operatorname {e} ^{-\lambda }}{k!}}{\dfrac {\lambda ^{r-1}\operatorname {e} ^{-\lambda /\theta }}{\Gamma (r)\theta ^{r}}}\,\mathrm {d} \lambda \\&=\int _{0}^{+\infty }{\dfrac {\lambda ^{k+r-1}\operatorname {e} ^{-\lambda {\frac {\theta +1}{\theta }}}}{k!\Gamma (r)\theta ^{r}}}\,\mathrm {d} \lambda \end{aligned}}

Le changement de variable $t=\lambda \,(1+\theta )\theta ^{-1}$ conduit à :

{\begin{aligned}\mathbb {P} (X=k)&=\left({\dfrac {\theta }{\theta +1}}\right)^{r+k}{\dfrac {1}{\Gamma (r)k!\theta ^{r}}}\int _{0}^{+\infty }t^{k+r-1}\operatorname {e} ^{-t}\,\mathrm {d} t\\&={\dfrac {\Gamma (k+r)}{\Gamma (r)k!}}\left({\dfrac {1}{\theta +1}}\right)^{r}\left({\dfrac {\theta }{\theta +1}}\right)^{k}\end{aligned}}

En posant $q=\theta (1+\theta )^{-1}$ , on remarque que $p + q = 1$ et

\mathbb {P} (X=k)={\dfrac {\Gamma (k+r)}{\Gamma (r)k!}}p^{r}q^{k}

Convergence vers la loi de Poisson[modifier | modifier le code]

Une loi binomiale négative de paramètres $n$ et $p=n(n+\lambda )^{-1}$ avec $λ$ réel fixé strictement positif converge faiblement vers une loi de Poisson de paramètre $λ$ lorsque $n$ converge vers l'infini. En d'autres termes, si $X_{n}\sim {\mathcal {BN(n,n/(n+\lambda ))}}$ et $X\sim {\mathcal {P}}(\lambda )$ alors on a la convergence en loi $X_{n}\rightarrow X$ .

Démonstration

On remarque que fonction de masse de $X_{n}$ peut se réécrire :

\mathbb {P} (X_{n}=k)={\frac {\lambda ^{k}}{k!}}\,{\frac {A_{n+k-1}^{k}}{(n+\lambda )^{k}}}\,{\frac {1}{\left(1+{\frac {\lambda }{n}}\right)^{n}}}

où $A_{n+k-1}^{k}$ est le nombre de permutations ou d'arrangement de $k$ éléments parmi $n + k - 1$ .

On a alors la convergence

\lim _{n\to \infty }\mathbb {P} (X_{n}=k)={\frac {\lambda ^{k}}{k!}}\,1\,{\frac {1}{\exp(\lambda )}}=\mathbb {P} (X=k)

Lien avec la loi géométrique[modifier | modifier le code]

Comme il existe deux définitions de la loi binomiale négative, il existe deux définitions de la loi géométrique. Si celle-ci modélise le nombre d'échecs avant le premier succès, elle correspond à la loi binomiale négative de paramètres 1 et $p$ .

${\mathcal {G}}(p)={\mathcal {BN}}(1,p)$ .

Si $X n$ est une variable aléatoire distribuée selon la loi binomiale négative de paramètres $n$ et $p$ , alors $X n$ est la somme de $n$ variables aléatoires indépendantes distribuées selon une loi géométrique de paramètre $p$ . Le théorème central limite indique de plus que $X n$ est approximativement normal, pour $n$ suffisamment grand.

Lien avec la loi binomiale[modifier | modifier le code]

En outre, si $Y k + n$ est une variable aléatoire distribuée selon une loi binomiale de paramètre $k + n$ et $p$ , alors

${\begin{aligned}\mathbb {P} (X_{n}\leq k)&{}=I_{p}(n,k+1)\\&{}=1-I_{1-p}(k+1,n)\\&{}=1-I_{1-p}((k+n)-(n-1),(n-1)+1)\\&{}=1-\mathbb {P} (Y_{k+n}\leq n-1)\\&{}=\mathbb {P} (Y_{k+n}\geq n).\end{aligned}}$

La dernière ligne s'interprète ainsi : c'est la probabilité qu'après $k + n$ épreuves, il y ait au moins $n$ succès. Ainsi, la loi binomiale négative peut être vue comme la réciproque de la loi binomiale.

Stabilité par somme[modifier | modifier le code]

La somme de $k$ variables aléatoires indépendantes et distribuées selon des lois binomiales négatives de paramètres $p$ et respectivement $n$ ₁, $n$ ₂,..., $n$ _k est encore une loi binomiale négative, de paramètres $p$ et $n = n 1 +...+ n k$ . Cette propriété se démontre aisément à partir de l'expression de la fonction génératrice des moments.

Applications[modifier | modifier le code]

Temps d'attente dans un processus de Bernoulli[modifier | modifier le code]

Pour tout entier $n$ , la loi binomiale négative est la distribution de succès et d'échecs dans une série d'épreuves de Bernoulli iid. Pour $k + n$ épreuves de Bernoulli, avec probabilité de succès $p$ , la loi binomiale négative donne la probabilité de $k$ échecs et $n$ succès, le dernier tirage étant un succès. Autrement dit, la loi binomiale négative est la distribution du nombre d'échecs avant le $n$ -ième succès dans des épreuves de Bernoulli, de probabilité de succès $p$ .

Considérons l'exemple suivant. On lance plusieurs fois un dé honnête, et la face 1 est considérée comme un succès. La probabilité de succès à chaque épreuve est 1/6. Le nombre d'épreuves nécessaires pour obtenir 3 succès appartient à l'ensemble infini { 3, 4, 5, 6, ... }. Ce nombre d'épreuves est une variable aléatoire distribuée selon une loi binomiale négative (décalée, car l'ensemble commence à 3 et pas à 0). Le nombre d'échecs avant le troisième succès appartient à l'ensemble { 0, 1, 2, 3, ... }. Ce nombre d'échecs est aussi distribuée selon une loi binomiale négative.

Loi de Poisson « sur-dispersée »[modifier | modifier le code]

La loi binomiale négative, en particulier dans sa paramétrisation alternative décrite plus haut, est une alternative intéressante à la loi de Poisson. Elle est particulièrement utile pour des données discrètes, à valeurs dans un ensemble positif non-borné, dont la variance empirique excède la moyenne empirique. Si une Poisson est utilisée pour modéliser de telles données, la moyenne et la variance doivent être égales. Dans ce cas, les observations sont «sur-dispersées» par rapport au modèle Poisson. Puisque la loi binomiale négative possède un paramètre supplémentaire, il peut être utilisé pour ajuster la variance indépendamment de la moyenne.

Références[modifier | modifier le code]

↑ La loi binomiale négative peut se généraliser à un paramètre réel strictement positif, dans ce cas on notera le paramètre $r$ plutôt que $n$ par souci de clarté. Pour cette généralisation toutes les formules de l'infoboite restent vraies en changeant les occurrences de $n$ en $r$ . Le coefficient binomial dans la fonction de masse devient alors un coefficient binomial généralisé.
↑ ^{a et b} A ne pas confondre avec la loi de Markov-Pólya.
↑ La probabilité p ne peut être nulle car sinon il serait impossible d'observer, en temps fini, les n succès attendus. D'ailleurs on remarquera que si on substituait 0 à p dans la formule de la fonction de masse, cette dernière serait alors toujours nulle, quel que soit la valeur de k, ce qui ne conviendrait pas pour une fonction de masse dont la somme sur toutes les valeurs de k se doit de valoir 1.
↑ Michel Lejeune, Statistiques : la théorie et ses applications, Springer Science & Business Media, 2004 (présentation en ligne), p. 49
↑ Ohilippe Tassi et Sylvia Legait, Théorie des probabilités en vue des applications statistiques, TECHNIP, 1990 (présentation en ligne), p. 115
↑ Astrid Jourdan et Célestin C Kokonendji, « Surdispersion et modèle binomial négatif généralisé », Revue de statistique appliquée, vol. 50,‎ 2002, p. 73-86 (lire en ligne)
↑ D. Ghorbanzadeh, Probabilités : exercices corrigés, Technip, 1998 (lire en ligne), p. 156.
↑ G. Millot, Comprendre et réaliser les tests statistiques à l'aide de R, De Boeck Supérieur, 2018 (lire en ligne), p. 269-271.

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Loi binomiale négative étendue
Problème du collectionneur de vignettes
Loi d'Erlang : analogue de la loi binomiale négative dans le cas continu.

Bibliographie[modifier | modifier le code]

(en) Joseph M. Hilbe (en), Negative Binomial Regression, Cambridge University Press, 2007 (lire en ligne)

Portail des probabilités et de la statistique

[1] La loi binomiale négative peut se généraliser à un paramètre réel strictement positif, dans ce cas on notera le paramètre $r$ plutôt que $n$ par souci de clarté. Pour cette généralisation toutes les formules de l'infoboite restent vraies en changeant les occurrences de $n$ en $r$ . Le coefficient binomial dans la fonction de masse devient alors un coefficient binomial généralisé.

[:0-2] {a et b} A ne pas confondre avec la loi de Markov-Pólya.

[3] La probabilité p ne peut être nulle car sinon il serait impossible d'observer, en temps fini, les n succès attendus. D'ailleurs on remarquera que si on substituait 0 à p dans la formule de la fonction de masse, cette dernière serait alors toujours nulle, quel que soit la valeur de k, ce qui ne conviendrait pas pour une fonction de masse dont la somme sur toutes les valeurs de k se doit de valoir 1.

[4] Michel Lejeune, Statistiques : la théorie et ses applications, Springer Science & Business Media, 2004 (présentation en ligne), p. 49

[5] Ohilippe Tassi et Sylvia Legait, Théorie des probabilités en vue des applications statistiques, TECHNIP, 1990 (présentation en ligne), p. 115

[6] Astrid Jourdan et Célestin C Kokonendji, « Surdispersion et modèle binomial négatif généralisé », Revue de statistique appliquée, vol. 50,‎ 2002, p. 73-86 (lire en ligne)

[7] D. Ghorbanzadeh, Probabilités : exercices corrigés, Technip, 1998 (lire en ligne), p. 156.

[8] G. Millot, Comprendre et réaliser les tests statistiques à l'aide de R, De Boeck Supérieur, 2018 (lire en ligne), p. 269-271.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]