Une troisième propriété est celle de la convergence.
Intuitivement,
cette propriété indique
qu'en augmentant la taille de notre échantillon,
notre estimateur devrait nous donner des valeurs
de plus en plus proches du paramètre dans la population.
La convergence d'un estimateur est la propriété de converger vers le
paramètre qui l'estime.
Le concept de convergence que nous utilisons ici est celui de la
convergence en probabilité.
Pour illustrer ce concept,
supposons avoir une distribution  d'échantillonnage d'un estimateur
de bêta1
potentiellement biaisé.
On s'intéresse à la probabilité que l'erreur d'estimation soit plus
petite que epsilon,
où epsilon est un petit nombre. C'est à dire que l'estimateur est
dans cet intervalle bêta1 plus minus epsilon.
Dans notre cas,
cette probabilité n'est pas très élevée.
La distribution est associée à une certaine taille d'échantillon,
disons, N égale à 50.
Si nous augmentons la taille d'échantillon,
nous obtenons une autre distribution
et aussi une autre probabilité d'être à l'intérieur de l'intervalle
souhaité,
normalement plus grande.
Si on continue à augmenter la taille d'échantillon
et si alors cette probabilité tend vers 1 pour n'importe quel
epsilon positif choisi,
alors l'estimateur est appelé convergent,
ou bien consistant.
Cette convergence en probabilités
est désignée par cette notation.
Une version de la loi des grands nombres nous donne des conditions sous
lesquelles on obtient une telle convergence en probabilité.
On a N variables aléatoires, Z,
indépendantes et identiquement distribuées,
avec une espérance de mu.
Alors, la moyenne des Zi
converge en probabilité
vers mu
lorsque N tend vers infini.
Dans notre cas,
supposons que les lignes de la matrice des variables explicatives X
sont des tirages "I" idées
d'un vecteur aléatoire X souligné
de dimensions K.
Avec un deuxième moment, donné par une matrice oméga disons,
qui est définie positive.
Nous pouvons appliquer la loi des grands nombres
à notre estimateur moindres carrés ordinaires
avec la décomposition habituelle.
Sauf qu'on insère maintenant le facteur 1 sur N,
ici,
et ici.
La matrice 1 sur N
X transposé X
peut être écrit comme une moyenne du vecteur
Xi fois Xi transposé
et par la loi des grands nombres
cette moyenne tend en probabilité vers oméga
lorsque N augmente.
Pareillement, le terme 1 sur N, X transposé epsilon
s'écrit comme la moyenne des Xi fois epsilon i
et tend, en probabilité,
par la loi des grands nombres,
vers l'espérance de X
fois epsilon.
Par la loi des espérances itérées,  cette espérance est égale à
l'espérance de l'espérance conditionnelle en conditionnant sur X.
Mais l'espérance conditionnelle epsilon vaut 0 par
hypothèse.
Par conséquent le deuxième terme de notre décomposition converge
vers l'inverse de la matrice oméga
fois 0.
ce qui est donc égal à 0
et ce qui démontre que bêta chapeau converge en probabilité
vers le paramètre de la population.
C'est un estimateur convergent.
