4 Evaluación de estimadores
En esta sección se hará una revisión de algunos temas relacionados con diferentes aspectos a tener en cuenta para evaluar y comparar estimadores.
A menos que se especifique lo contrario, en adelante, sea X_1, \dots, X_n una muestra aleatoria de una población con función de densidad \mathrm{f}_X(x;\theta), \mathrm{g}(\theta) una función del parámetro \theta y T=\mathrm{T}(X_1, \dots, X_n) un estimador de \mathrm{g}(\theta).
4.1 Insesgamiento
Definición 4.1 El estimador T se denomina estimador insesgado para \mathrm{g}(\theta), si y solo si, E \left[ T \right] = \mathrm{g}(\theta)
Definición 4.2 La diferencia \mathrm{Bias}[T] = E \left[ T \right] - \mathrm{g}(\theta) se denomina el sesgo del estimador T con respecto a \mathrm{g}(\theta).
Definición 4.3 T es un estimador asintóticamente insesgado si \lim_{n \to \infty} \big( E[T_n] - \mathrm{g}(\theta) \big) = 0 para todo \theta \in \Theta.
Ejercicio 4.1 Sea X_1, \dots, X_n una muestra aleatoria de una población con distribución X \sim \mathcal{U}(a = 0, b = \theta). Determine el sesgo para,
el estimador máximo verosimil de \theta.
el estimador por el método de momentos de \theta, usando el primer momento ordinario.
Ejercicio 4.2 Sea X_1, \dots, X_n una muestra aleatoria de una población con distribución X \sim \mathcal{N}(\mu = \mu_0 \text{ conocido}, \sigma^2 = \theta). Determine el sesgo para,
el estimador de \theta: T = M^{(2)} = \frac{1}{n} \sum_{i=1}^n \left( X_i - \bar{X} \right)^2.
el estimador de \theta: T = S^{2} = \frac{1}{n-1} \sum_{i=1}^n \left( X_i - \bar{X} \right)^2.
4.2 Eficiencia - Precisión
Definición 4.4 Sean T y T^* dos estimadores insesgados para \mathrm{g}(\theta), se dice que T es un estimador uniformemente mejor que T^* si, Var[T] \leq Var[T^*], para todo \theta \in \Theta.
Ejercicio 4.3 Sea X_1, \dots, X_n una muestra aleatoria de una población con distribución X \sim \mathcal{U}(a = 0, b = \theta). Determine la varianza de,
el estimador máximo verosimil de \theta.
el estimador por el método de momentos de \theta, usando el primer momento ordinario.
¿Cuál estimador es uniformemente mejor?
Definición 4.5 Un estimador T es insesgado y uniformemente de varianza mínima (uniformly minimum variance unbiased estimator UMVUE) para \mathrm{g}(\theta) si y sólo si T es un estimador insesgado para \mathrm{g}(\theta) y Var[T] \leq Var[T^*] para T^*, cualquier otro estimador insesgado para \mathrm{g}(\theta).
Bajo ciertas condiciones, la desigualdad de Cramer - Rao permitirá determinar cuál es la varianza mínima posible de los estimadores insesgados para \mathrm{g}(\theta). Antes de poder enunciar dicha desigualdad, debemos hablar de la información de Fisher y de las condiciones de regularidad.
Definición 4.6 (Información de Fisher) Sea X una variable aleatoria cuya función de densidad f_X(x;\boldsymbol{\theta}) es tal que \frac{\partial}{\partial \boldsymbol{\theta}} \log f_X(x;\boldsymbol{\theta}) existe para todo x, con f_X(x;\boldsymbol{\theta}) > 0, y para todo \boldsymbol{\theta} \in \Theta, la información de Fisher en la variable aleatoria X acerca de \boldsymbol{\theta}, se define como, \mathcal{I}(\boldsymbol{\theta}) = E \left[ \left(\frac{\partial}{\partial \boldsymbol{\theta}} \log f_X(X,\boldsymbol{\theta})\right) \left(\frac{\partial}{\partial \boldsymbol{\theta}} \log f_X(X,\boldsymbol{\theta})\right)' \right] o escrito de otra manera, \mathcal{I}_{jk}(\boldsymbol{\theta}) = E \left[ \left(\frac{\partial}{\partial \theta_j} \log f_X(X,\boldsymbol{\theta})\right) \left(\frac{\partial}{\partial \theta_k} \log f_X(X,\boldsymbol{\theta})\right) \right].
De lo anterior, la información de Fisher para una muestra aleatoria acerca del parámetro \boldsymbol{\theta} estaría dada por, \begin{aligned} &E \left[ \left(\frac{\partial}{\partial \theta_j} \log \prod_{i=1}^{n} f_X(X_i,\boldsymbol{\theta})\right) \left(\frac{\partial}{\partial \theta_k} \log \prod_{i=1}^{n} f_X(X_i,\boldsymbol{\theta})\right) \right] \\ &= E \left[ \left(\sum_{i=1}^{n} \frac{\partial}{\partial \theta_j} \log f_X(X_i,\boldsymbol{\theta})\right) \left(\sum_{i=1}^{n} \frac{\partial}{\partial \theta_k} \log f_X(X_i,\boldsymbol{\theta})\right) \right] \end{aligned}
Sean X_1 y X_2 variables aleatorias independientes con información de Fisher \mathcal{I}_{X_1}(\theta) y \mathcal{I}_{X_2}(\theta), respectivamente. ¿la información de Fisher acerca del parámetro \theta contenida en el vector aleatorio X = (X_1,X_2) es \mathcal{I}_{X}(\theta) = \mathcal{I}_{X_1}(\theta) + \mathcal{I}_{X_2}(\theta)?. En general, si X_1, \dots, X_n son variables aleatorias independientes idénticamente distribuidas y si la información de Fisher acerca de \theta contenida en cada X_i es \mathcal{I}(\theta), ¿la información de Fisher acerca de \theta contenida en X_1, \dots, X_n es n \mathcal{I}(\theta)?.
¿El anterior resultado se cumplirá para una muestra aleatoria que proviene de una población con:
X \sim \mathcal{U}(a = 0, b = \theta)?
X \sim Exp(\beta = \theta)?
Definición 4.7 (Caso regular de estimación o condiciones de regularidad) Se habla de un caso regular de estimación o de cumplimiento de condiciones de regularidad cuando el modelo escogido para representar el comportamiento de la población y la estadística en consideración cumplen las siguientes condiciones:
\frac{\partial}{\partial \theta} \log f_X(X,\theta) existe para todo x, con f_X(x,\theta) > 0, y para todo \theta \in \Theta \subseteq \mathbb{R}.
La información de Fisher acerca del parámetro \theta en la población es finita para todo \theta \in \Theta
Si la variable X que representa a la población es continua, \begin{aligned} &\frac{\partial}{ \partial \theta} \int \cdots \int \prod_{i=1}^{n} f_X(x_i,\theta) \, dx_1 \dots dx_n \\ &= \int \cdots \int \frac{\partial}{ \partial \theta} \prod_{i=1}^{n} f_X(x_i,\theta) \, dx_1 \dots dx_n, \end{aligned} análogamente cuando X es discreta.
Si la variable X que representa a la población es continua, \begin{aligned} &\frac{\partial}{ \partial \theta} \int \cdots \int \mathrm{T}(x_1, \dots, x_n) \prod_{i=1}^{n} f_X(x_i,\theta) \, dx_1 \dots dx_n \\ &= \int \cdots \int \mathrm{T}(x_1, \dots, x_n) \frac{\partial}{ \partial \theta} \prod_{i=1}^{n} f_X(x_i,\theta) \, dx_1 \dots dx_n, \end{aligned} análogamente cuando X es discreta.
Bajo condiciones de regularidad y si \frac{\partial^2}{\partial \theta^2} \log f_X(x,\theta) existe para todo x, con f_X(x,\theta) > 0, y para todo \theta \in \Theta \subseteq \mathbb{R}, entonces, E \left[ \left(\frac{\partial}{\partial \theta} \log f_X(X,\theta)\right)^2 \right] = - E \left[ \frac{\partial^2}{\partial \theta^2} \log f_X(X,\theta) \right],
A partir del resultado anterior, si X_1, \dots, X_n son variables aleatorias independientes idénticamente distribuidas (muestra aleatoria) y si la información de Fisher acerca de \theta contenida en cada X_i es \mathcal{I}(\theta), entonces, \begin{aligned} \mathcal{I}_{X_1, \dots, X_n}(\theta) &= E \left[ \left( \frac{\partial}{\partial \theta} \sum_{i=1}^n \log f_X(X_i,\theta)\right) \left(\frac{\partial}{\partial \theta} \sum_{i=1}^n \log f_X(X_i,\theta)\right)' \right] \\ &= - E \left[ \frac{\partial^2}{\partial \theta^2} \sum_{i=1}^n \log f_X(X_i,\theta) \right] \\ &= \sum_{i=1}^n \left( - E \left[ \frac{\partial^2}{\partial \theta^2} \log f_X(X_i,\theta) \right] \right) \\ &= \sum_{i=1}^n \mathcal{I}(\theta) = n \, \mathcal{I}(\theta) \end{aligned}
Ejercicio 4.4 Obtenga \mathcal{I}(\theta) = E \left[ \left(\frac{\partial}{\partial \theta} \log f_X(X,\theta)\right)^2 \right] y - E \left[ \frac{\partial^2}{\partial \theta^2} \log f_X(X,\theta) \right] para,
X \sim \mathcal{U}(a = 0, b = \theta)
X \sim Exp(\beta = \theta)
X \sim \mathcal{N}(\mu = \theta, \sigma^2 = \sigma^2_0 \text{ conocido})
Teorema 4.1 (Desigualdad de Cramer - Rao) Dentro de un caso regular de estimación (bajo condiciones de regularidad), si T es un estimador insesgado para \mathrm{g}(\theta), entonces, \frac{\left(\frac{\partial}{\partial \theta}\mathrm{g}(\theta) \right)^2}{n \, \mathcal{I}(\theta)} \leq Var \left[ T \right] expresión que corresponde a la versión más difundida del teorema, y en donde, la parte izquierda de la desigualdad es conocida como cota de Cramer-Rao.
De manera más general, sin la condición de que T sea un estimador insesgado, se tiene que, \frac{\left(\frac{\partial}{\partial \theta}\mathrm{g}(\theta) + \frac{\partial}{\partial \theta}\mathrm{Bias}[T]\right)^2}{n \mathcal{I}(\theta)} \leq E \left[ \big( T - \mathrm{g}(\theta) \big)^2 \right]
Ejercicio 4.5 Sea X_1, \dots, X_n una muestra aleatoria de una población con distribución X \sim \mathcal{N}(\mu = \theta, \sigma^2 = \sigma^2_0 \text{ conocido}).
¿Cuál es la información de Fisher de \theta?
¿Cuál es la mínima varianza posible para un estimador insesgado de \theta?
¿Cuál es el sesgo y la varianza del estimador máximo verosímil de \theta?
La igualdad en la desigualdad de Cramer-Rao se tiene cuando, \frac{\partial}{\partial \theta} \log \prod_{i=1}^{n} f_X(X_i,\theta) = \mathrm{K}(\theta, n) \left( \mathrm{T}(X_1, \dots, X_n) - \mathrm{g}(\theta) \right) En este caso, T es UMVUE para \mathrm{g}(\theta).
Cuando un estimador insesgado tiene varianza igual a la cota de Cramer-Rao, entonces este es un UMVUE. Sin embargo, un UMVUE puede que no alcance la cota de Cramer-Rao.
Una forma para verificar que un estimador es UMVUE es ver que es insesgado y que alcanza la cota de Cramer-Rao.
Un estimador sesgado puede tener una varianza inferior a la de todos los estimadores insesgados. Así mismo, un estimador sesgado puede que tenga una varianza igual o menor a la cota de Cramer-Rao y en cualquier caso nunca es UMVUE.
Teorema 4.2 Si T el estimador máximo verosímil de \theta está dado por la solución de la ecuación \frac{\partial}{\partial \theta} \log L(\theta, x_1, \dots, x_n) = \frac{\partial}{\partial \theta} \log \prod_{i=1}^{n} f_X(X_i,\theta) = 0 y si T^* es un estimador insesgado para \mathrm{g}(\theta) cuya varianza coincide con la cota de Cramér - Rao, entonces T^{*} = \mathrm{g}(T).
Definición 4.8 La eficiencia relativa de T^{(2)} respecto a T^{(1)}, estimadores insesgados para \mathrm{g}(\theta), corresponde a, \frac{Var\left[T^{(1)}\right]}{Var\left[T^{(2)}\right]}
Ejercicio 4.6 Sea X_1, \dots, X_n una muestra aleatoria de una población con distribución X \sim \mathcal{U}(a = 0, b = \theta). Determine la eficiencia relativa del estimador máximo verosímil de \theta respecto al estimador por el método de momentos de \theta (usando el primer momento ordinario). ¿Qué cambiaría en la eficiencia relativa si cada estimador utiliza una muestra de diferente tamaño, por ejemplo, n y m respectivamente?
Definición 4.9 En un caso regular de estimación, la eficiencia de un estimador insesgado T para \mathrm{g}(\theta) es, \mathrm{e}(T) = \frac{\frac{\left(\frac{\partial}{\partial \theta}\mathrm{g}(\theta) \right)^2}{n \mathcal{I}(\theta)}}{Var[T]}
Definición 4.10 En un caso regular de estimación, la eficiencia asintótica de un estimador insesgado T para \mathrm{g}(\theta) es, \lim_{n \to \infty} \mathrm{e}(T_n)
4.3 Concentración
Definición 4.11 Sean T^{(1)} y T^{(2)} dos estimadores para \mathrm{g}(\theta), se dice que T^{(1)} es más concentrado que T^{(2)}, si y solo si, \begin{aligned} P \left[ -\epsilon < T^{(1)} - \mathrm{g}(\theta) < \epsilon \right] &\geq P \left[ -\epsilon < T^{(2)} - \mathrm{g}(\theta) < \epsilon \right] \\ P \left[ \mathrm{g}(\theta)-\epsilon < T^{(1)} < \mathrm{g}(\theta)+\epsilon \right] &\geq P \left[ \mathrm{g}(\theta)-\epsilon < T^{(2)} < \mathrm{g}(\theta)+\epsilon \right] \end{aligned} para cada \epsilon > 0 y cada \theta \in \Theta.
Definición 4.12 Una medida de concentración del estimador T es \mathrm{MSE}_T(\theta) = E \left[ \big( T - \mathrm{g}(\theta) \big)^2 \right] la cual se denomina Error cuadrático medio (Mean-Squared Error).
Ejercicio 4.7 Muestre que el error cuadrático medio de un estimador se puede descomponer en dos, en la varianza y en el cuadrado del sesgo de dicho estimador.
\begin{aligned} \mathrm{MSE}_T(\theta) &= E \left[ \big( T - \mathrm{g}(\theta) \big)^2 \right] \\ &= E \left[ \left( \big( T - E[T] \right) + \left( E[T] - \mathrm{g}(\theta) \right) \big)^2 \right] \\ &= E \left[ \big( T - E[T] \big)^2 + 2\left( T - E[T] \right)\left( E[T] - \mathrm{g}(\theta) \right) + \big( E[T] - \mathrm{g}(\theta) \big)^2 \right] \\ &= E \left[ \big( T - E[T] \big)^2 \right] + 2 E \left[ \left( T - E[T] \right)\left( E[T] - \mathrm{g}(\theta) \right) \right] + E \left[ \big( E[T] - \mathrm{g}(\theta) \big)^2 \right] \\ &= E \left[ \big( T - E[T] \big)^2 \right] + 2 \left( E[T] - \mathrm{g}(\theta) \right) E \left[ \left( T - E[T] \right) \right] + \big( E[T] - \mathrm{g}(\theta) \big)^2 \\ &= E \left[ \big( T - E[T] \big)^2 \right] + 2 \left( E[T] - \mathrm{g}(\theta) \right) \left( E \left[T\right] - E[T] \right) + \big( E[T] - \mathrm{g}(\theta) \big)^2 \\ &= E \left[ \big( T - E[T] \big)^2 \right] + \big( E[T] - \mathrm{g}(\theta) \big)^2 \\ &= Var[T] + \left(\mathrm{Bias}[T]\right)^2 \end{aligned}
Ejercicio 4.8 Sea X_1, \dots, X_n una muestra aleatoria de una población con distribución X \sim \mathcal{U}(a = 0, b = \theta). Determine el error cuadrático medio para,
el estimador máximo verosímil de \theta.
el estimador por el método de momentos de \theta, usando el primer momento ordinario.
Para finalizar, recuerde que, bajo condiciones de regularidad, \frac{\left(\frac{\partial}{\partial \theta}\mathrm{g}(\theta) + \frac{\partial}{\partial \theta}\mathrm{Bias}[T]\right)^2}{n \mathcal{I}(\theta)} \leq E \left[ \big( T - \mathrm{g}(\theta) \big)^2 \right]
4.4 Consistencia
Informalmente y en pocas palabras, consistencia trata acerca de si el estimador converge al parámetro a medida que el tamaño de muestra aumenta.
Definición 4.13 El estimador T_n se denomina estimador consistente en error cuadrático medio para \mathrm{g}(\theta), si \lim_{n \to \infty} E \left[ \big( T_n - \mathrm{g}(\theta) \big)^2 \right] = 0 o lo que es lo mismo, T_n \xrightarrow{L^2} \mathrm{g}(\theta) para todo \theta \in \Theta.
Definición 4.14 El estimador T_n se denomina estimador consistente fuerte para \mathrm{g}(\theta), si P\left[ \lim_{n \to \infty} T_n = \mathrm{g}(\theta) \right] = 1 o lo que es lo mismo, T_n \xrightarrow{c.s.} \mathrm{g}(\theta)
Definición 4.15 El estimador T_n se denomina estimador consistente simple o débil para \mathrm{g}(\theta), si \lim_{n \to \infty} P \left[ -\epsilon < T_n - \mathrm{g}(\theta) < \epsilon \right] = 1 o lo que es lo mismo, T_n \xrightarrow{P} \mathrm{g}(\theta) para todo \theta \in \Theta y \epsilon > 0.
¿Un estimador obtenido por el método de momentos es un estimador consistente? ¿por qué si o por qué no?
Naturalmente, si T_n es un estimador asintóticamente insesgado y su varianza tiende a cero cuando el tamaño de la muestra tiende a infinito entonces T_n es consistente en error cuadrático medio.
Ejercicio 4.9 Sea X_1, \dots, X_n una muestra aleatoria de una población con distribución X \sim \mathcal{N}(\mu = \theta, \sigma^2 = \sigma^2_0 \text{ conocido}). Determine si el estimador máximo verosímil de \theta es consistente en error cuadrático medio.
Definición 4.16 T_n se denomina best asymptotically normal estimator si y solo si,
La sucesión de variables aleatorias \left\{ \sqrt{n} \left( T_n - \mathrm{g}(\theta) \right) \right\} converge en distribución a una variable aleatoria con distribución Normal de valor esperado cero y varianza \sigma^2(\theta).
El estimador es consistente débil para \mathrm{g}(\theta).
Siendo T^*_n cualquier otro estimador consistente débil para \mathrm{g}(\theta) para el cual \left\{ \sqrt{n} \left( T^*_n - \mathrm{g}(\theta) \right) \right\} converge en distribución a una variable aleatoria con distribución Normal de valor esperado cero y varianza \sigma^{*^2}(\theta), se tiene que \sigma^{^2}(\theta) \leq \sigma^{*^2}(\theta).
En un caso regular de estimación, si T_n es el estimador máximo verosímil para \mathrm{g}(\theta), entonces T_n es un estimador consistente asintóticamente normal, es decir, \sqrt{n} \big( T_n - \mathrm{g}(\theta) \big) \xrightarrow{d} \mathcal{N}\left( 0, \frac{1}{\mathcal{I}(\theta)}\right).
Por ejemplo: Sea X_1, \dots, X_n una muestra aleatoria de una población con función de densidad \mathrm{f}_X(x;\theta), una función continua en el percentil x_p, para un valor p fijado de antemano, entonces la estadística de orden X_{([np]+1)} es un estimador consistente asintóticamente normal para el percentil x_p, \frac{ X_{([np]+1)} - x_p }{\sqrt{\frac{p(1-p)}{n \, \mathrm{f}^2_X(x_p;\theta)}}} \xrightarrow{d} \mathcal{N}\left( 0, 1 \right).
4.5 Suficiencia
Informalmente y en pocas palabras, suficiencia trata acerca de si un estadístico conserva toda la información contenida en la muestra aleatoria (“no hay pérdida de información”) con respecto al parámetro de interés.
Definición 4.17 T_1, \dots, T_m es una colección de estadísticas conjuntamente suficientes para \theta, si y sólo si la distribución condicional de las variables aleatorias de la muestra aleatoria X_1, X_2, \dots, X_n dado T_1, \dots, T_m no depende de \theta.
Ejercicio 4.10 Sea X_1, X_2 una muestra aleatoria de tamaño 2 de una población con distribución X \sim \mathcal{Bernoulli}(p = \theta). Determine si,
T = X_1 + X_2 es una estadística suficiente para \theta.
T^* = X_1 X_2 es una estadística suficiente para \theta.
Ejercicio 4.11 Sea X_1, \dots, X_n una muestra aleatoria de una población con distribución X \sim \mathcal{Poisson}(\lambda = \theta). Determine si el estimador máximo verosímil de \theta es suficiente para \theta.
Teorema 4.3 (Criterio de factorización de Fisher-Neyman) El conjunto T_1, \dots, T_m es una colección de estadísticas conjuntamente suficientes para \theta, si y solo si, la función de verosimilitud se puede factorizar de la forma, \begin{aligned} \mathrm{L}(\theta; x_1, \dots , x_n) &= \mathrm{g}(T_1,\dots,T_m; \theta) \, \mathrm{h}(x_1, \dots , x_n) \\ \Big( \mathrm{f}_{X_1, \dots, X_n}(x_1, \dots , x_n; \theta) \Big. &= \Big. \mathrm{g}(T_1,\dots,T_m; \theta) \, \mathrm{h}(x_1, \dots , x_n) \Big) \end{aligned} donde \mathrm{h} es una función no negativa que depende exclusivamente de x_1, \dots, x_n y \mathrm{g} es una función no negativa que depende de \theta y de x_1, \dots, x_n a través de T_1, \dots, T_m.
Ejercicio 4.12 Utilice el criterio de factorización de Fisher-Neyman para obtener una colección de estadísticas conjuntamente suficientes para una muestra aleatoria proveniente de una:
distribución Bernoulli de parámetro p = \theta.
distribución normal de parámetros \mu = \theta_1 y \sigma^2 = \theta_2.
distribución beta de parámetros \alpha = \theta_1 y \beta = \theta_2
Teorema 4.4 Si T es un estimador suficiente para \theta, entonces la información contenida en la v.a. T acerca de \theta es la misma información contenida en la muestra aleatoria X_1, \dots, X_n acerca de \theta
Prueba. \begin{aligned} \mathcal{I}_{X_1, \dots, X_n}(\theta) &= E \left[ \left( \frac{\partial}{\partial \theta} \log \mathrm{f}_{X_1, \dots, X_n}\left(X_1, \dots, X_n\right) \right)^2 \right] \\ &= E \left[ \left( \frac{\partial}{\partial \theta} \log \Big( \mathrm{g}(T; \theta) \, \mathrm{h}(X_1, \dots , X_n) \Big) \right)^2 \right] \\ &= E \left[ \left( \frac{\partial}{\partial \theta} \Big( \log \mathrm{g}(T; \theta) + \log \mathrm{h}(X_1, \dots , X_n) \Big) \right)^2 \right] \\ &= E \left[ \left( \frac{\partial}{\partial \theta} \log \mathrm{g}(T; \theta) \right)^2 \right] \end{aligned}
Por otra parte, para obtener \mathcal{I}_{T}(\theta), se necesita saber quién es \mathrm{f}_T(t), \begin{aligned} \mathrm{f}_{X_1, \dots , X_n|T}(x_1,\dots,x_n|t) &= \frac{\mathrm{f}_{X_1, \dots , X_n, T}(x_1,\dots,x_n, t)}{\mathrm{f}_{T}(t)} \\ \mathrm{f}_{T}(t) &= \frac{\mathrm{f}_{X_1, \dots , X_n, T}(x_1,\dots,x_n, t)}{\mathrm{f}_{X_1, \dots , X_n|T}(x_1,\dots,x_n|t)} \\ \mathrm{f}_{T}(t) &= \begin{cases} \frac{\mathrm{f}_{X_1, \dots , X_n}(x_1,\dots,x_n)}{\mathrm{f}_{X_1, \dots , X_n|T}(x_1,\dots,x_n|t)} & \text{Si } T(x_1,\dots,x_n) = t\\ 0 & \text{en otro caso } \end{cases} \end{aligned}
Lo que quiere decir que, \begin{aligned} \mathcal{I}_{T}(\theta) &= E \left[ \left( \frac{\partial}{\partial \theta} \log \mathrm{f}_{T}\left(T\right) \right)^2 \right] \\ &= E \left[ \left( \frac{\partial}{\partial \theta} \log \frac{\mathrm{f}_{X_1, \dots , X_n}(X_1,\dots,X_n)}{\mathrm{f}_{X_1, \dots , X_n|T}(X_1,\dots,X_n|T)} \right)^2 \right] \\ &= E \left[ \left( \frac{\partial}{\partial \theta} \log \frac{\mathrm{g}(T; \theta) \, \mathrm{h}(X_1, \dots , X_n)}{\mathrm{f}_{X_1, \dots , X_n|T}(X_1,\dots,X_n|T)} \right)^2 \right] \\ &= E \Biggl[ \bigg( \frac{\partial}{\partial \theta} \Big( \log \big( \mathrm{g}(T; \theta) \big) + \log \big( \mathrm{h}(X_1, \dots , X_n) \big) \Big. \bigg. \Biggl. - \\ & \qquad \qquad \qquad \qquad \quad \Biggl. \bigg. \Big. \log \big( \mathrm{f}_{X_1, \dots , X_n|T}(X_1,\dots,X_n|T) \big) \Big) \bigg)^2 \Biggl] \\ &= E \left[ \left( \frac{\partial}{\partial \theta} \log \mathrm{g}(T; \theta) \right)^2 \right] \end{aligned}
Concluimos que, \mathcal{I}_{X_1, \dots, X_n}(\theta) = E \left[ \left( \frac{\partial}{\partial \theta} \log \mathrm{g}(T; \theta) \right)^2 \right] = \mathcal{I}_{T}(\theta)
Teorema 4.5 Si T_1, \dots, T_m es una colección de estadísticas conjuntamente suficientes, entonces cualquier transformación uno a uno de T_1, \dots, T_m también es una colección de estadísticas conjuntamente suficientes.
Ejercicio 4.13 Determine una colección de estimadores insesgados y conjuntamente suficientes para una muestra aleatoria de una:
distribución Bernoulli de parámetro p = \theta.
distribución normal de parámetros \mu = \theta_1 y \sigma^2 = \theta_2.
Definición 4.18 Una colección de estadísticas conjuntamente suficientes se denomina minimal, si y sólo si, ellas son función de cualquier otro conjunto de estadísticas suficientes.
Para el estudio de la suficiencia y la completez será particularmente ventajoso cuando la población tenga una distribución perteneciente a la “familia exponencial”. En el Apéndice B hay una pequeña y rápida revisión de algunos aspectos básicos relacionados con la familia exponencial de densidades / distribuciones (Familia exponencial).
Si \mathrm{f}_X(x; \boldsymbol{\theta}) pertenece a la familia exponencial k-paramétrica de densidades, entonces las estadísticas, \sum_{i=1}^{n} T_1 \left(X_i\right), \dots, \sum_{i=1}^{n} T_k \left(X_i\right) son conjuntamente suficientes para \boldsymbol{\theta}. Además se puede demostrar que constituyen una colección minimal.
Teorema 4.6 Si T es una estadística suficiente para \theta y si T_{ML} es el único estimador máximo verosímil para \theta, entonces T_{ML} es función de T.
Teorema 4.7
- Si T_{ML} es el único estimador máximo verosímil para \theta, entonces T_{ML} es función de una colección minimal de estadísticas conjuntamente suficientes.
- Si T_{ML} NO es el único estimador máximo verosímil para \theta, entonces existe un estimador máximo verosímil T^*_{ML} que es una función de una colección minimal de estadísticas conjuntamente suficientes.
Definición 4.19 Se dice que las estadísticas T^* y T son equivalentes si existe una función \mathrm{g}() uno a uno de tal manera que T^* = \mathrm{g}(T).
Teorema 4.8 Dadas las estadísticas equivalentes T^* y T, si T es una estadística suficiente para \theta, entonces T^* también lo es.
La idea contraria a la suficiencia se formaliza en los siguientes definición y teorema.
Definición 4.20 La estadística T se denomina estadística auxiliar para el parámetro \theta, si \mathrm{f}_T(t) es una función que no depende de \theta. Si específicamente E[T] es un valor que no depende de \theta, entonces T se denomina estadística auxiliar de primer orden.
Ejercicio 4.14 Determine una estadística auxiliar de primer orden para el parámetro \theta de una población con distribución X \sim \mathcal{U}(a = -\theta, b = \theta).
Teorema 4.9 (Teorema de Basu) Si T^* es una estadística auxiliar para el parámetro \theta y T es una estadística suficiente para \theta, entonces T^* y T son variables aleatorias independientes.
Teorema 4.10 (Teorema de Rao-Blackwell) Si T^* es un estimador insesgado para \mathrm{g}(\theta) y T_1, \dots, T_m son conjuntamente suficientes, entonces T = E[T^* | T_1, \dots, T_m] es un estimador insesgado para g(\theta), que es función solamente de estadísticas suficientes y que tiene una varianza menor que la de T^*.
Ejercicio 4.15 Sea X_1, \dots, X_n una muestra de una población con distribución X \sim Bernoulli(p = \theta).
Determine si T^* = X_1 es un estimador insesgado para \theta \left( g(\theta)=\theta \right).
Determine si T_1 = \sum_{i=1}^n X_i es suficiente para \theta.
Obtenga T = E[T^* | T_1].
Verifique que T efectivamente cumple todas las condiciones que debería cumplir dado el anterior teorema (“estimador insesgado para g(\theta) = \theta, que es función solamente de estadísticas suficientes y que tiene una varianza menor que la de T^*”).
4.6 Completez
Aspecto referente a la distribución muestral de un estadístico que nos será de utilidad para encontrar estimadores UMVUE.
Definición 4.21 La familia de funciones de distribución \big(\left\{\mathrm{F}_X(x; \theta) : \theta \in \Theta\right\}\big) es completa, si y solo si, E\big[\mathrm{g}(X)\big]=0 \text{ implica } P\big[\mathrm{g}(X) = 0\big] = 1 para toda función de valor real \mathrm{g}(), para todo \theta \in \Theta y para todo x tal que \mathrm{f}_X(x; \theta) > 0.
Definición 4.22 T es una estadística completa si su distribución \big(\mathrm{F}_T(x; \theta)\big) pertenece a una familia de distribuciones completa \big( \left\{\mathrm{F}(x; \theta) : \theta \in \Theta\right\} \big).
Ejercicio 4.16 Determine si T = \sum_{i=1}^n X_i es una estadística completa para X_1, \dots, X_n una muestra aleatoria de una población con distribución X \sim \mathcal{Bernoulli}(p = \theta).
Ejercicio 4.17 Determine si T = X_{(n)} es una estadística completa para X_1, \dots, X_n una muestra aleatoria de una población con distribución X \sim \mathcal{U}(a = 0, b = \theta).
Teorema 4.11 Sea X_1, \dots, X_n una muestra aleatoria de una población con distribución perteneciente a la familia exponencial, la estadística natural \left(T = \sum_{i=1}^n \mathrm{T}(X_i)\right) es una estadística suficiente y completa para \theta.
Teorema 4.12 Sea T un estimador insesgado para \mathrm{g}(\theta). Si T es una estadística completa para \theta, entonces T es el único estimador insesgado para \mathrm{g}(\theta).
Teorema 4.13 (Teorema de Lehmann-Scheffe) Si T_1, \dots, T_m es una colección de estadísticas conjuntamente suficientes y completas para \theta y si T = \mathrm{h}(T_1, \dots, T_m) es un estimador insesgado para \mathrm{g}(\theta), entonces T es UMVUE para \mathrm{g}(\theta).
4.7 Ejercicios
Demuestre que:
Si X \sim \mathcal{B}(p = \theta) entonces \mathcal{I}(\theta) = \frac{1}{\theta (1-\theta)}
Si X \sim \mathcal{B}(n = n_0 \text{ conocido}, p = \theta) entonces \mathcal{I}(\theta) = \frac{n}{\theta (1-\theta)}
Si X \sim \mathcal{P}(\lambda = \theta) entonces \mathcal{I}(\theta) = \frac{1}{\theta}
Si X \sim \mathcal{Beta}(\alpha = \theta_1, \beta = \theta_2) entonces \mathcal{I}(\boldsymbol{\theta}) = \left( \begin{smallmatrix} \mathcal{I}_{11}(\boldsymbol{\theta}) & \mathcal{I}_{12}(\boldsymbol{\theta}) \\ \mathcal{I}_{21}(\boldsymbol{\theta}) & \mathcal{I}_{22}(\boldsymbol{\theta}) \end{smallmatrix} \right) = \left( \begin{smallmatrix} \psi_1(\alpha) - \psi_1(\alpha + \beta) & - \psi_1(\alpha + \beta) \\ - \psi_1(\alpha + \beta) & \psi_1(\beta) - \psi_1(\alpha + \beta) \end{smallmatrix} \right)
Si X \sim \mathcal{N}\left(\mu = \theta_1, \sigma^2 = \theta_2\right) entonces \mathcal{I}_{11}(\boldsymbol{\theta}) = \frac{1}{\theta_2}, \mathcal{I}_{22}(\boldsymbol{\theta}) = \frac{1}{2\theta_2^2} y \mathcal{I}_{12}(\boldsymbol{\theta}) = 0
Si X \sim \mathcal{LogNormal}(\theta_1, \theta_2) entonces \mathcal{I}_{11}(\boldsymbol{\theta}) = \frac{1}{\theta_2}, \mathcal{I}_{22}(\boldsymbol{\theta}) = \frac{1}{2\theta_2^2} y \mathcal{I}_{12}(\boldsymbol{\theta}) = 0
Si X \sim \mathcal{Pareto}(\theta_1, \theta_2) entonces \mathcal{I}_{11}(\boldsymbol{\theta}) = \frac{\theta_2^2}{\theta_1^2}, \mathcal{I}_{22}(\boldsymbol{\theta}) = \frac{1}{\theta_2^2} y \mathcal{I}_{12}(\boldsymbol{\theta}) = 0
Resolver ejercicios, acerca de lo visto en esta sección, del capítulo 2 del libro del profesor Mayorga
Resolver ejercicios, acerca de lo visto en esta sección, de los capítulos 2, 3 y 4 del libro del profesor Cepeda.