Estimación de máxima verosimilitud (1)

 

La idea fundamental de este método es tomar como estimación del parámetro estudiado el valor que haga máxima la probabilidad de obtener la muestra observada.

Para ilustrar este método, imaginemos la siguiente situación: queremos estimar la probabilidad p de que salga cara en el lanzamiento de una moneda no necesariamente regular.

Para ello procedemos de la siguiente manera:  lanzamos la moneda cinco veces y obtenemos la siguiente secuencia:  

C + C C +

Una manera aparentemente razonable de estimar p sería evaluar la probabilidad de obtener esta  muestra para diferentes valores de p y quedarnos con el valor que haga máxima dicha probabilidad. En nuestro caso, debemos calcular:

para todos los posibles valores de p, es decir, para todo valor real entre 0 y 1. Es lo que se muestra en la siguiente tabla, en la que se han simplificado los posibles valores de p tomando incrementos de 0,1:

Valor de p

Probabilidad de la muestra observada

0,0

0,0000

0,1

0,0008

0,2

0,0051

0,3

0,0132

0,4

0,0230

0,5

0,0313

0,6

0,0346

0,7

0,0309

0,8

0,0205

0,9

0,0073

1,0

0,0000

Como puede observarse, el valor para el que se obtiene la máxima probabilidad es 0,6. Por tanto, dicho valor será la estimación máximo verosímil (EMV) de p.

Si analizamos este resultado es fácil darse cuenta que la EMV obtenida coincide con la frecuencia relativa del número de caras (Fr (C) = 3/5 = 0,6), por lo que podemos preguntarnos ¿se trata de un resultado casual o es generalizable? Para responder a esta cuestión volvamos al cálculo de la probabilidad de nuestra muestra, pero aprovechemos para hacerlo más general. Supongamos que hemos efectuado n lanzamientos de la moneda de los que k (k <= n) han sido cara sin que importe el orden en que han salido. La probabilidad de dicho suceso viene dada por:

y, si suponemos que los valores n y k son conocidos, esta probabilidad puede expresarse como una función L(p) del parámetro p, exclusivamente. A dicha función se le llama función de verosimilitud y puede definirse como la función de densidad conjunta de la muestra (probabilidad de obtener la muestra observada, en nuestro caso), pero considerada como función del parámetro. Por tanto, es posible maximizarla utilizando las técnicas conocidas de cálculo y asumiendo la restricción de que  0 <= p <= 1. Es decir, derivamos L(p) e igualamos a cero. Aunque, los cálculos suelen facilitarse al aplicar el hecho de que si una función (positiva) alcanza un máximo en un punto dado, el logaritmo de dicha función alcanzará un máximo en el mismo punto:

 

Para ser rigurosos debemos comprobar que se trata de un máximo. Una manera de hacerlo es demostrar que la derivada segunda de L(p) (o de su logaritmo) en el punto k/n es negativa. En nuestro caso es fácil ver que la segunda derivada siempre es negativa:

Es decir, acabamos de demostrar que la frecuencia relativa es el estimador máximo verosímil de la probabilidad de un determinado suceso (en nuestro ejemplo que salga cara). La metodología que acabamos de utilizar para determinar el estimador máximo verosímil se denomina método de la máxima verosimilitud.