3 Propiedades algunas estadísticas

En esta sección se hará una revisión rápida de algunas propiedades matemático-estadísticas de interés de algunas estadísticas de particular relevancia.

Si X_1, \dots, X_n es una muestra aleatoria, entonces, en términos generales T = \mathrm{T} \left( X_1, \dots, X_n \right) es una estadística. A su vez, T también es una variable aleatoria, y por lo tanto, podemos hablar de su valor esperado como medida de centralidad, de su varianza como medida de dispersión, de su función de distribución acumulativa, de sus convergencias cuando el tamaño de muestra n es suficientemente grande (recordemos que para las variables aleatorias existes diferentes tipos de convergencia: en probabilidad, casi siempre, en distribución, en L^r), entre otros.

En la sección anterior, encontramos que \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i es un estimador para un parámetro \theta de ciertas distribuciones. Por tal razón, \bar{X} sería una estadística interesante para la cual querríamos conocer sus propiedades, como variable aleatoria que es. Así mismo, existen otras estadísticas interesantes y de uso frecuente, para las cuales el conocer sus propiedades como variables aleatorias, nos facilitará el poder evaluarlas en su rol de estimadores puntuales de un parámetro de interés.

3.1 Momentos muestrales

Recordemos que hemos denotado, \mu_*^{(r)} = E\left[ X^r \right], y, \mu^{(r)} = E\left[ \left( X - \mu_*^{(1)} \right)^r \right] = E\left[ \left( X - \mu \right)^r \right] como los momentos (poblacionales) ordinarios y centrales de orden r, respectivamente.

Sean \begin{aligned} M_*^{(r)} &= \frac{1}{n} \sum_{i=1}^n X_i^r, \end{aligned} y \begin{aligned} M^{(r)} &= \frac{1}{n} \sum_{i=1}^n \left( X_i - M_*^{(1)} \right)^r, \end{aligned} los momentos muestrales ordinarios y centrales de orden r, respectivamente.

3.1.1 Valor esperado

\begin{aligned} E \left[ M_*^{(r)} \right] &= E \left[ \frac{1}{n} \sum_{i=1}^n X_i^r \right] \\ &= \frac{1}{n} \sum_{i=1}^n E \left[ X_i^r \right] \\ &= \frac{1}{n} \sum_{i=1}^n \mu_*^{(r)} \\ &= \frac{1}{n} n \mu_*^{(r)} \\ &= \mu_*^{(r)}. \\ \end{aligned}

3.1.2 Varianza

\begin{aligned} Var \left[ M_*^{(r)} \right] &= \frac{1}{n} \left( E\left[X^{2r}\right] - \left(E\left[X^r\right]\right)^2 \right) \\ &= \frac{1}{n} \left[ \mu_*^{(2r)} - \left( \mu_*^{(r)} \right)^2 \right]. \end{aligned}

3.1.3 Convergencias

M_*^{(r)} \xrightarrow{P} \mu_*^{(r)}

3.2 Promedio muestral o media muestral

La media muestral o media de la muestra es el primer momento ordinario muestral, \bar{X} = M_*^{(1)} = \frac{1}{n} \sum_{i = 1}^{n} X_i.

3.2.1 Valor esperado

E\left[ \bar{X} \right] = E \left[ M_*^{(1)} \right] = \mu_*^{(1)} = \mu.

3.2.2 Varianza

\begin{aligned} Var \left[ \bar{X} \right] &= Var \left[ M_*^{(1)} \right] \\ &= \frac{1}{n} \left( \mu_*^{(2)} - \left( \mu_*^{(1)} \right)^2 \right) \\ &= \frac{\sigma^2}{n}. \end{aligned}

Note que: \begin{aligned} Var \left[ \bar{X} \right] &= E \left[ \bar{X}^2 \right] - \Big(E \left[ \bar{X} \right]\Big)^2\\ \frac{\sigma^2}{n} &= E \left[ \bar{X}^2 \right] - \mu^2\\ E \left[ \bar{X}^2 \right] &= \frac{\sigma^2}{n} + \mu^2. \end{aligned}

3.2.3 Distribución muestral

Si X \sim Exp(\theta), entonces \bar{X} \sim Gamma\left(n, \frac{\theta}{n}\right).

Si X \sim Gamma(k, \theta), entonces \bar{X} \sim Gamma\left(nk, \frac{\theta}{n}\right).

Si X \sim \mathcal{N}(\mu, \sigma^2), entonces \bar{X} \sim \mathcal{N}\left(\mu, \frac{\sigma^2}{n}\right).

3.2.4 Convergencias

\begin{aligned} \bar{X} &\xrightarrow{P} \mu \\ \bar{X} &\xrightarrow{c.s.} \mu \end{aligned}

¿Cuál debería ser el tamaño de la muestra n para tener una probabilidad de al menos el 0.95, de que el promedio muestral no difiera del teórico en más de una cuarta parte de la desviación estándar teórica (suponiendo población infinita y muestra simple)?

Teorema central del límite:

Sea X_1, X_2, \dots una sucesión de variables aleatorias independientes e igualmente distribuidas (cualquier distribución), con media denotada por \mu y varianza finita denotada por \sigma^2, entonces, \begin{aligned} \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} = \frac{\sqrt{n} \left(\bar{X} - \mu\right)}{\sigma} \xrightarrow{d} Z \sim \mathcal{N}(0,1). \end{aligned}

3.3 Varianza muestral

La denominada varianza muestral está dada por la expresión, S^2 = \frac{1}{n-1} \sum_{i=1}^{n} \left( X_i - \bar{X} \right)^2.

¿Por qué S^2 es la varianza muestral y no es M^{(2)} = \frac{1}{n} \sum_{i=1}^n \left( X_i - \bar{X} \right)^2?

3.3.1 Valor esperado

\begin{aligned} E \left[ M^{(2)} \right] &= E \left[ \frac{1}{n} \sum_{i=1}^n \left( X_i - \bar{X} \right)^2 \right] \\ &= E\left[ \frac{1}{n} \sum_{i=1}^n \left( X_i^2 \right) - \bar{X}^2 \right] \\ &= \frac{1}{n} \sum_{i=1}^n \Big( E\left[ X_i^2 \right] \Big) - E\left[ \bar{X}^2 \right] \\ &= \frac{1}{n} \sum_{i=1}^n \left( \sigma^2 + \mu^2 \right) - \left( \frac{\sigma^2}{n} + \mu^2 \right) \\ &= \sigma^2 + \mu^2 - \frac{\sigma^2}{n} - \mu^2 \\ &= \sigma^2 - \frac{\sigma^2}{n} = \left( 1 - \frac{1}{n} \right) \sigma^2 \\ &= \frac{n-1}{n} \sigma^2. \end{aligned}

\begin{aligned} E \left[ S^2 \right] &= E \left[ \frac{1}{n-1} \sum_{i=1}^n \left( X_i - \bar{X} \right)^2 \right] \\ &= E \left[ \frac{n}{n-1} \frac{1}{n} \sum_{i=1}^n \left( X_i - \bar{X} \right)^2 \right] \\ &= \frac{n}{n-1} E \left[ \frac{1}{n} \sum_{i=1}^n \left( X_i - \bar{X} \right)^2 \right] \\ &= \frac{n}{n-1} \left( \frac{n-1}{n} \sigma^2 \right) \\ &= \sigma^2. \end{aligned}

3.3.2 Varianza

\begin{aligned} Var \left[ S^2 \right] &= \frac{1}{n} \left( \mu^{(4)} - \frac{n-3}{n-1} \sigma^4 \right) \\ &= \frac{\sigma^4}{n} \left( (\kappa - 1) + \frac{2}{n-1} \right), \end{aligned} para n > 1 y donde \kappa es la curtosis poblacional.

3.3.3 Distribución muestral

Si X \sim \mathcal{N}(\mu, \sigma^2), entonces \frac{(n-1) S^2}{\sigma^2} \sim \chi_{n-1}^2.

3.3.4 Convergencias

S^2 \xrightarrow{c.s.} \sigma^2, y por ende, S^2 \xrightarrow{P} \sigma^2.

3.4 Estadísticas de orden

La \boldsymbol{k}-ésima estadística de orden, k = 1,2,\dots,n, denotada por X_{(k)}, se puede definir recursivamente de la siguiente manera, \begin{aligned} X_{(1)} &= \min \{X_1, \dots, X_{n}\} \\ X_{(k)} &= \min \left\{ \left\{ X_1, \dots, X_n \right\} \setminus \left\{ X_{(1)}, \dots, X_{(k-1)} \right\} \right\} \end{aligned}

Al conjunto de estadísticas de orden X_{(1)}, X_{(2)}, \dots, X_{(n)} se le denomina muestra aleatoria ordenada.

Mínimo muestral: X_{(1)}

Máximo muestral: X_{(n)} = \min \left\{ \left\{ X_1, \dots, X_n \right\} \setminus \left\{ X_{(1)}, \dots, X_{(n-1)} \right\} \right\} = \max \{X_1, \dots, X_n\}

Mediana muestral: M_{e} = \begin{cases} X_{\left(\frac{n+1}{2}\right)} & \text{si $n$ es impar} \\ \frac{X_{\left(\frac{n}{2}\right)} + X_{\left(\frac{n}{2}+1\right)}}{2} & \text{si $n$ es par} \end{cases}

3.4.1 Distribución muestral

\mathrm{F}_{X_{(k)}}(x) = \sum_{i=k}^{n} \binom{n}{i} \big[ \mathrm{F}_{X}(x) \big]^i \big[ 1 - \mathrm{F}_{X}(x) \big]^{n-i}

\mathrm{f}_{X_{(k)}}(x) = \frac{n!}{(k-1)!(n-k)!} \big[ \mathrm{F}_{X}(x) \big]^{k-1} \big[ 1 - \mathrm{F}_{X}(x) \big]^{n-k} \mathrm{f}_{X}(x)

Distribución del mínimo muestral: \mathrm{F}_{X_{(1)}}(x) = 1 - \big[ 1 - \mathrm{F}_X(x) \big]^n

Distribución del máximo muestral: \mathrm{F}_{X_{(n)}}(x) = \big[ \mathrm{F}_X(x) \big]^n

Distribución de la mediana muestral: Si X \sim \mathcal{N}(\mu, \sigma^2), entonces M_{e} \sim \mathcal{N}\left( \mu, \frac{\pi \sigma^2}{2n} \right).

3.4.2 Convergencias

Sea \mathrm{F}_{X}(x) estrictamente monotona y \mathrm{F}_{X}(x_p) = p entonces, X_{([np] + 1)}\xrightarrow{d} X \sim \mathcal{N} \left( x_p, \frac{p(1-p)}{n\big[\mathrm{f}_{X}(x_p)\big]^2} \right)

3.5 Función de distribución acumulativa muestral

\mathrm{F}_n(x) = \frac{1}{n}\sum_{i=1}^{n} \mathrm{I}_{(-\infty,x]}\left(X_i\right) = \begin{cases} 0 & \text{si } x < X_{(1)} \\ k/n & \text{si } X_{(k)} \leq x < X_{(k+1)} \\ 1 & \text{si } X_{(n)} \leq x \end{cases}

3.5.1 Valor Esperado

E \left[ \mathrm{F}_n(x) \right] = \mathrm{F}(x)

3.5.2 Varianza

Var \big[ \mathrm{F}_n(x) \big] = \frac{\mathrm{F}(x)\big[1-\mathrm{F}(x)\big]}{n}

3.5.3 Convergencias

\mathrm{F}_n(x) \xrightarrow{P} \mathrm{F}(x) para un valor x dado.

Es más, \mathrm{F}_n(x) converge uniformemente a \mathrm{F}(x).

\frac{\sqrt{n}\left(\mathrm{F}_n(x) - \mathrm{F}(x)\right)}{\sqrt{\mathrm{F}(x)\left[1-\mathrm{F}(x)\right]}} \xrightarrow{d} Z \sim \mathcal{N}(0,1)

Ejercicio 3.1 Determinar el valor esperado y la varianza de las estadísticas \bar{X}, M^{(2)} y S^2 cuando la muestra aleatoria proviene de un población con,

X \sim \mathcal{N}(\mu = 5, \sigma^2 = 1.5^2)
X \sim \mathcal{U}(a = 0, b = 10)
X \sim Exp(\theta = 4/3)
\frac{X}{10} \sim Beta(\alpha = 15, \beta = 1)

Al tratar de determinar los valores esperados y las varianzas solicitadas, requerirá las formulas específicas de cada distribución para los primeros cuatro momentos centrales poblacionales. Comparando los valores que obtendría con los valores esperados y las varianzas determinadas por usted (usando n=100), contra los siguientes valores aproximados obtenidos mediante simulación, puede identificar inicialmente si alguno de los valores esperados o varianzas determinadas está mal.

Código

n <- 100 # Tamaños de muestra
rep <- 10000 # Repeticiones
d <- c("rnorm(n * rep, 5, 1.5)",
       "runif(n * rep, 0, 10)",
       "rexp(n * rep, 0.75)",
       "10 * rbeta(n * rep, 15, 1)") # Distribuciones
df <- NULL
for(k in 1:4){ # Para cada distribución
  ## Generación de muestras (cada fila es una muestra)
  x <- matrix(eval(parse(text = d[k])), rep, n)
  x.bar <- apply(x, 1, mean) # promedio muestral
  s.2 <- apply(x, 1, var) # varianza muestral
  m.2 <- s.2 * (n - 1) / n # 2do momento central muestral
  df <- rbind(df, c(mean(x.bar), var(x.bar), 
                    mean(m.2), var(m.2), 
                    mean(s.2), var(s.2)))
}
colnames(df) <- c("mean(x.bar)", "var(x.bar)", 
                  "mean(m.2)", "var(m.2)", 
                  "mean(s.2)", "var(s.2)")
rownames(df) <- c("Normal(0, 1.5^2)","Uniforme(0, 10)",
                  "Exp(4/3)","10*Beta(15, 1)")
cat("Tamaño de muestra utilizado: ", n, ". ",
    "Número de repeticiones utilizadas ", rep, ".\n", sep = "")

Tamaño de muestra utilizado: 100. Número de repeticiones utilizadas 10000.

Código

knitr::kable(df)

	mean(x.bar)	var(x.bar)	mean(m.2)	var(m.2)	mean(s.2)	var(s.2)
Normal(0, 1.5^2)	5.000181	0.0221746	2.2284635	0.1003713	2.2509732	0.1024092
Uniforme(0, 10)	4.999316	0.0841500	8.2657328	0.5544348	8.3492250	0.5656921
Exp(4/3)	1.334835	0.0182156	1.7635601	0.2506997	1.7813738	0.2557899
10*Beta(15, 1)	9.374030	0.0034112	0.3414257	0.0064255	0.3448745	0.0065560