En esta sección se hará una revisión rápida de algunas propiedades matemático-estadísticas de interés de algunas estadísticas de particular relevancia.
Si X_1, \dots, X_n es una muestra aleatoria, entonces, en términos generales T = \mathrm{T} \left( X_1, \dots, X_n \right) es una estadística. A su vez, T también es una variable aleatoria, y por lo tanto, podemos hablar de su valor esperado como medida de centralidad, de su varianza como medida de dispersión, de su función de distribución acumulativa, de sus convergencias cuando el tamaño de muestra n es suficientemente grande (recordemos que para las variables aleatorias existes diferentes tipos de convergencia: en probabilidad, casi siempre, en distribución, en L^r), entre otros.
En la sección anterior, encontramos que \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i es un estimador para un parámetro \theta de ciertas distribuciones. Por tal razón, \bar{X} sería una estadística interesante para la cual querríamos conocer sus propiedades, como variable aleatoria que es. Así mismo, existen otras estadísticas interesantes y de uso frecuente, para las cuales el conocer sus propiedades como variables aleatorias, nos facilitará el poder evaluarlas en su rol de estimadores puntuales de un parámetro de interés.
3.1 Momentos muestrales
Recordemos que hemos denotado, \mu_*^{(r)} = E\left[ X^r \right], y, \mu^{(r)} = E\left[ \left( X - \mu_*^{(1)} \right)^r \right] = E\left[ \left( X - \mu \right)^r \right] como los momentos (poblacionales) ordinarios y centrales de orden r, respectivamente.
Sean
\begin{aligned}
M_*^{(r)} &= \frac{1}{n} \sum_{i=1}^n X_i^r,
\end{aligned}
y
\begin{aligned}
M^{(r)} &= \frac{1}{n} \sum_{i=1}^n \left( X_i - M_*^{(1)} \right)^r,
\end{aligned}
los momentos muestrales ordinarios y centrales de orden r, respectivamente.
3.1.1 Valor esperado
\begin{aligned}
E \left[ M_*^{(r)} \right] &= E \left[ \frac{1}{n} \sum_{i=1}^n X_i^r \right] \\
&= \frac{1}{n} \sum_{i=1}^n E \left[ X_i^r \right] \\
&= \frac{1}{n} \sum_{i=1}^n \mu_*^{(r)} \\
&= \frac{1}{n} n \mu_*^{(r)} \\
&= \mu_*^{(r)}. \\
\end{aligned}
¿Cuál debería ser el tamaño de la muestra n para tener una probabilidad de al menos el 0.95, de que el promedio muestral no difiera del teórico en más de una cuarta parte de la desviación estándar teórica (suponiendo población infinita y muestra simple)?
Teorema central del límite:
Sea X_1, X_2, \dots una sucesión de variables aleatorias independientes e igualmente distribuidas (cualquier distribución), con media denotada por \mu y varianza finita denotada por \sigma^2, entonces,
\begin{aligned}
\frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} = \frac{\sqrt{n} \left(\bar{X} - \mu\right)}{\sigma} \xrightarrow{d} Z \sim \mathcal{N}(0,1).
\end{aligned}
3.3 Varianza muestral
La denominada varianza muestral está dada por la expresión, S^2 = \frac{1}{n-1} \sum_{i=1}^{n} \left( X_i - \bar{X} \right)^2.
¿Por qué S^2 es la varianza muestral y no es M^{(2)} = \frac{1}{n} \sum_{i=1}^n \left( X_i - \bar{X} \right)^2?
\begin{aligned}
Var \left[ S^2 \right] &= \frac{1}{n} \left( \mu^{(4)} - \frac{n-3}{n-1} \sigma^4 \right) \\
&= \frac{\sigma^4}{n} \left( (\kappa - 1) + \frac{2}{n-1} \right),
\end{aligned}
para n > 1 y donde \kappa es la curtosis poblacional.
3.3.3 Distribución muestral
Si X \sim \mathcal{N}(\mu, \sigma^2), entonces \frac{(n-1) S^2}{\sigma^2} \sim \chi_{n-1}^2.
3.3.4 Convergencias
S^2 \xrightarrow{c.s.} \sigma^2, y por ende, S^2 \xrightarrow{P} \sigma^2.
3.4 Estadísticas de orden
La \boldsymbol{k}-ésima estadística de orden, k = 1,2,\dots,n, denotada por X_{(k)}, se puede definir recursivamente de la siguiente manera,
\begin{aligned}
X_{(1)} &= \min \{X_1, \dots, X_{n}\} \\
X_{(k)} &= \min \left\{ \left\{ X_1, \dots, X_n \right\} \setminus \left\{ X_{(1)}, \dots, X_{(k-1)} \right\} \right\}
\end{aligned}
Al conjunto de estadísticas de orden X_{(1)}, X_{(2)}, \dots, X_{(n)} se le denomina muestra aleatoria ordenada.
Var \big[ \mathrm{F}_n(x) \big] = \frac{\mathrm{F}(x)\big[1-\mathrm{F}(x)\big]}{n}
3.5.3 Convergencias
\mathrm{F}_n(x) \xrightarrow{P} \mathrm{F}(x) para un valor x dado.
Es más, \mathrm{F}_n(x) converge uniformemente a \mathrm{F}(x).
\frac{\sqrt{n}\left(\mathrm{F}_n(x) - \mathrm{F}(x)\right)}{\sqrt{\mathrm{F}(x)\left[1-\mathrm{F}(x)\right]}} \xrightarrow{d} Z \sim \mathcal{N}(0,1)
Ejercicio 3.1 Determinar el valor esperado y la varianza de las estadísticas \bar{X}, M^{(2)} y S^2 cuando la muestra aleatoria proviene de un población con,
X \sim \mathcal{N}(\mu = 5, \sigma^2 = 1.5^2)
X \sim \mathcal{U}(a = 0, b = 10)
X \sim Exp(\theta = 4/3)
\frac{X}{10} \sim Beta(\alpha = 15, \beta = 1)
Al tratar de determinar los valores esperados y las varianzas solicitadas, requerirá las formulas específicas de cada distribución para los primeros cuatro momentos centrales poblacionales. Comparando los valores que obtendría con los valores esperados y las varianzas determinadas por usted (usando n=100), contra los siguientes valores aproximados obtenidos mediante simulación, puede identificar inicialmente si alguno de los valores esperados o varianzas determinadas está mal.
Código
n<-100# Tamaños de muestrarep<-10000# Repeticionesd<-c("rnorm(n * rep, 5, 1.5)","runif(n * rep, 0, 10)","rexp(n * rep, 0.75)","10 * rbeta(n * rep, 15, 1)")# Distribucionesdf<-NULLfor(kin1:4){# Para cada distribución## Generación de muestras (cada fila es una muestra)x<-matrix(eval(parse(text =d[k])), rep, n)x.bar<-apply(x, 1, mean)# promedio muestrals.2<-apply(x, 1, var)# varianza muestralm.2<-s.2*(n-1)/n# 2do momento central muestraldf<-rbind(df, c(mean(x.bar), var(x.bar), mean(m.2), var(m.2), mean(s.2), var(s.2)))}colnames(df)<-c("mean(x.bar)", "var(x.bar)", "mean(m.2)", "var(m.2)", "mean(s.2)", "var(s.2)")rownames(df)<-c("Normal(0, 1.5^2)","Uniforme(0, 10)","Exp(4/3)","10*Beta(15, 1)")cat("Tamaño de muestra utilizado: ", n, ". ","Número de repeticiones utilizadas ", rep, ".\n", sep ="")
Tamaño de muestra utilizado: 100. Número de repeticiones utilizadas 10000.