11  Distribuciones muestrales

En esta sección se hará una revisión de algunos aspectos relacionados con las distribuciones de estadísticos que relacionan un parámetro de interés (θ\theta) con su respectivo estimador puntual (TT).

Actividad autónoma Independiente (antes de clase)
  • Lea todo el contenido de la presente sección (Inferencia, 11. Distribuciones muestrales).

En sus propias palabras, haga una exposición escrita (como si le estuviera explicando a un compañero o amigo) acerca de lo que aprendió a partir de lo leído, incluya su discusión, reflexiones y conclusiones al respecto. Luego, exponga lo que no entendió e intente encontrar por su cuenta respuestas a las preguntas que le surgieron, para que las pueda compartir en clase.

Dado el alcance de este material, solamente se considerarán las siguientes seis situaciones, que a su vez se dividen en dos escenarios posibles.

En el siguiente enlace encontrarán un archivo .pdf con el resumen de las fórmulas asociadas a las secciones: “Distribuciones muestrales”, “Estimación por intervalo” y “Juzgamiento”: ResumenFormulasInferencia.pdf

11.1 Preliminares

11.1.1 Teorema del Límite Central

Ejercicio 11.1 Teniendo en cuenta los diez resultados que obtuvo al lanzar una moneda 1010 veces consecutivas (es decir, la realización de la muestra aleatoria de tamaño 1010 que usted obtuvo).

  • Suponga que todos los estudiantes hacen el ejercicio con la misma moneda, ¿todos obtienen la misma estimación? ¿por qué?
  • Si tomo todas las estimaciones y con ellas hago un histograma ¿qué forma tendría?
  • ¿Cuál sería la distribución teórica de todas las estimaciones posibles (de todas las posibles muestras posibles de tamaño 1010)?

Si Xˉ\bar{X} es la media de una muestra aleatoria de tamaño nn tomada de una población con media μ\mu y varianza finita σ2\sigma^2, entonces, cuando nn \to \infty, la distribución de Z=Xˉμσ/nZ = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} tiende a una normal estándar. Escrito de otra manera, XˉnWN(μ,σn)\bar{X} \underset{n \to \infty}{\longrightarrow} W \sim \mathcal{N}\left(\mu, \frac{\sigma}{\sqrt{n}} \right) o lo que es lo mismo (estandarizando), Xˉμσ/nnZN(0,1)\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \underset{n \to \infty}{\longrightarrow} Z \sim \mathcal{N}\left(0,1\right)

Tenga en cuenta que:

  • La aproximación en varios casos será buena para n30n \geq 30.

  • Para n<30n < 30, la aproximación es buena solamente si la distribución es cercana a la normal.

  • Si la distribución de la población es una normal, entonces, para cualquier valor de nn, la distribución de Xˉ\bar{X} es exactamente una normal.

Para ilustrar lo anterior:

Ejercicio 11.2  

Las estaturas de 10001000 estudiantes se distribuyen aproximadamente de forma normal con una media de 174.5174.5 centímetros y una desviación estándar de 6.96.9 centímetros. Si se extraen 200200 muestras aleatorias de tamaño 2525 de esta población y las medias se registran al décimo de centímetro más cercano, determine:

  1. la media y la desviación estándar de la distribución muestral de Xˉ\bar{X};
  2. el número de las medias muestrales que caen entre 172.5172.5 y 175.8175.8 centímetros;
  3. el número de medias muestrales que caen por debajo de 172.0172.0 centímetros.

Walpole, Myers & Myers (2012). Probabilidad y estadística para ingeniería y ciencias. (9a. ed.) Pearson Educación. Capítulo 8. Ejercicio 22.

11.1.2 Distribuciones adicionales requeridas

11.1.2.1 Distribución Ji/Chi-cuadrado

Si Z1N(0,1),,ZνN(0,1)Z_1 \sim \mathcal{N}(0,1), \dots, Z_\nu \sim \mathcal{N}(0,1) entonces i=1νZi2χν2\sum_{i=1}^{\nu} Z_i^2 \sim \chi^2_\nu (\Big(\Big.Si Z1,,ZνZ_1, \dots, Z_\nu son variables aleatorias normales estándar independientes, entonces la variable aleatoria i=1νZi2\sum_{i=1}^{\nu} Z_i^2 es chi-cuadrado de parámetro ν\nu.)\Big.\Big)

11.1.2.2 Distribución t de Student

Si ZN(0,1)Z \sim \mathcal{N}(0,1) y Vχν2V \sim \chi^2_\nu son independiente, entonces, ZV/νtν\frac{Z}{\sqrt{V/\nu}} \sim t_\nu (\Big(\Big.Si ZZ es una variable aleatoria normal estándar, VV es una variable aleatoria chi-cuadrado con ν\nu grados de libertad, y ZZ y VV son independientes, entonces la variable aleatoria ZV/ν\frac{Z}{\sqrt{V/\nu}} es t de Student con ν\nu grados de libertad.)\Big.\Big)

11.1.2.3 Distribución F de Fisher-Snedecor

Si Uχν12U \sim \chi^2_{\nu_1} y Vχν22V \sim \chi^2_{\nu_2} son independientes, entonces, U/ν1V/ν2fν1,ν2\frac{U/\nu_1}{V/\nu_2} \sim f_{\nu_1,\nu_2} (\Big(\Big.Si UU es una variable aleatoria chi-cuadrado con ν1\nu_1 grados de libertad, VV es una variable aleatoria chi-cuadrado con ν2\nu_2 grados de libertad, y UU y VV son independientes, entonces la variable aleatoria U/ν1V/ν2\frac{U/\nu_1}{V/\nu_2} es F de Fisher con ν1\nu_1 grados de libertad en el numerador y ν2\nu_2 grados de libertad en el denominador.)\Big.\Big)

En el hay una pequeña y rápida revisión de algunas características de las distribuciones: ji/chi cuadrado, t de Student y F de Fisher-Snedecor (Distribuciones adicionales requeridas)

11.1.3 Notación

Considere los valores z(α)z_{(\alpha)}, t(α,ν)t_{(\alpha,\nu)}, χ(α,ν)2\chi^2_{(\alpha,\nu)} y f(α,ν1,ν2)f_{(\alpha,\nu_1,\nu_2)} tal que:

Note la relación entre la notación que hemos estado utilizando para los cuantiles y esta nueva notación para todo lo que viene de aquí en adelante en el tema de inferencia (mi intención es tener una pequeña variante en la notación que permita diferenciar y no confundir una cosa con otra):

z1α=z(α)t1α,ν=t(α,ν)χ1α,ν2=χ(α,ν)2f1α,ν1,ν2=f(α,ν1,ν2) \begin{aligned} z_{1 - \alpha} &= z_{(\alpha)} \\ t_{1-\alpha,\nu} &= t_{(\alpha,\nu)} \\ \chi^2_{1-\alpha,\nu} &= \chi^2_{(\alpha,\nu)} \\ f_{1-\alpha,\nu_1,\nu_2} &= f_{(\alpha,\nu_1,\nu_2)} \end{aligned}

En adelante todos los resultados expuestos supondrán que nn es suficientemente grande (para poder aplicar el Teorema del Límite Central) o que la población tiene una distribución normal o muy cercana (para poder utilizar las distribuciones t de Student, Chi-cuadrado y F de Fisher-Snedecor).

11.2 Una población

11.2.1 Media

En el caso de la media de una población, sabemos que T=XˉT = \bar{X} es un estimador puntual de θ=μ\theta = \mu. Además, bajo diferentes supuestos, tenemos los siguientes dos resultados para un estadístico que relaciona dicho parámetro de interés (θ\theta) con su respectivo estimador puntual (TT).

  1. Si σ\sigma es conocida, entonces, para nn suficientemente grande o bajo el supuesto de que la variable de interés de la población tiene distribución normal tenemos que,

    Xˉμσ/nN(0,1)\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim \mathcal{N}(0,1)

  2. Si σ\sigma es desconocida, entonces, bajo el supuesto de que la variable de interés de la población tiene distribución normal tenemos que,

    XˉμS/ntn1\frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t_{n-1}

Ejercicio 11.3  

Después de deducir los gastos necesarios, el costo promedio por asistir a la Universidad del Sur de California (USC) es de $27175\$27175 (U. S. News & World Report, America’s Best Colleges, ed. 2009). Suponga que la desviación estándar poblacional es $7400\$7400. Asuma que se selecciona una muestra aleatoria de 6060 estudiantes de la USC de esta población.

  1. ¿Cuál es el valor esperado de la media muestral en este estudio?
  2. ¿Cuál es el valor del error estándar?
  3. ¿Cuál es la distribución de muestreo? ¿Qué indica esta distribución?
  4. ¿Cuál es la probabilidad de que la media muestral sea mayor que $27175\$27175?
  5. ¿Cuál es la probabilidad de que la media muestral no se aleje más o menos de $1000\$1000 de la media poblacional?
  6. ¿Qué tanto variaría la probabilidad del inciso anterior si el tamaño de la muestra se aumentara a 100100?

Anderson, Sweeney, Williams & Camm (2016). Estadística para Negocios y Economía. (12a. ed.) Cengage Learning. Capítulo 7. Ejercicio complementario 46.

Ejercicio 11.4  

Un inspector de control de calidad vigila periódicamente un proceso de producción. El inspector selecciona muestras aleatorias simples de 3030 artículos ya terminados y calcula la media muestral del peso del producto xˉ\bar{x}. Si en un periodo largo se encuentra que 5%5\% de los valores de xˉ\bar{x} son mayores que 2.12.1 libras y 5%5\% son menores que 1.91.9 libras, ¿cuáles son la media y la desviación estándar de la población de los productos elaborados en este proceso?

Anderson, Sweeney, Williams & Camm (2016). Estadística para Negocios y Economía. (12a. ed.) Cengage Learning. Capítulo 7. Ejercicio complementario 49.

11.2.2 Proporción

En el caso de la proporción de una población, sabemos que T=P^T = \hat{P} es un estimador puntual de θ=p\theta = p. Además, para nn suficientemente grande (np>10np > 10 y n(1p)>10n(1-p) > 10), tenemos el siguiente resultado para un estadístico que relaciona dicho parámetro de interés (θ\theta) con su respectivo estimador puntual (TT).

P^pp(1p)nN(0,1)\frac{\hat{P} - p}{\sqrt{\frac{p(1-p)}{n}}} \sim \mathcal{N}(0,1)

Ejercicio 11.5  

Los publicistas contratan a proveedores de servicios de Internet y motores de búsqueda para colocar sus anuncios en los sitios web. Pagan una cuota con base en el número de clientes potenciales que hacen clic en su publicidad. Desafortunadamente, el fraude por clic (la práctica de hacer clic en una publicidad con el solo objeto de aumentar las ganancias) se ha convertido en un problema. El 40%40\% de los anunciantes se queja de haber sido víctima de fraude por clic (BusinessWeek, 13 de marzo de 2006). Suponga que se toma una muestra aleatoria de 380380 publicistas con objeto de aprender más acerca de cómo son afectados por esta práctica.

  1. ¿Cuál es el valor esperado de la proporción muestral en este estudio?
  2. ¿Cuál es el error estándar?
  3. ¿Cuál es la distribución de muestreo? ¿Qué indica esta distribución?
  4. ¿Cuál es la probabilidad de que la proporción muestral sea mayor que 0.450.45?
  5. ¿Cuál es la probabilidad de que la proporción muestral esté a no más de ±0.04\pm 0.04 de la proporción poblacional que ha experimentado fraude por clic?

Anderson, Sweeney, Williams & Camm (2016). Estadística para Negocios y Economía. (12a. ed.) Cengage Learning. Capítulo 7. Ejercicio complementario 52.

11.2.3 Varianza

En el caso de la varianza (y/o desviación estándar) de una población, sabemos que T=S2T = S^2 es un estimador puntual de θ=σ2\theta = \sigma^2. Además, bajo el supuesto de que la variable de interés de la población tiene distribución normal, tenemos el siguiente resultado para un estadístico que relaciona dicho parámetro de interés (θ\theta) con su respectivo estimador puntual (TT).

(n1)S2σ2χn12\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}

Ejercicio 11.6  

Suponga que las varianzas muestrales son mediciones continuas. Calcule la probabilidad de que una muestra aleatoria de 2525 observaciones, de una población normal con varianza σ2=6\sigma^2 = 6, tenga una varianza muestral S2S^2

  1. mayor que 9.19.1;
  2. entre 3.4623.462 y 10.74510.745.

Walpole, Myers & Myers (2012). Probabilidad y estadística para ingeniería y ciencias. (9a. ed.) Pearson Educación. Ejercicio 8.41.

11.3 Dos poblaciones

11.3.1 Medias

En el caso de las medias de dos poblaciones, sabemos que T=X1ˉX2ˉT = \bar{X_1} - \bar{X_2} es un estimador puntual de θ=μ1μ2\theta = \mu_1 - \mu_2. Además, bajo diferentes supuestos, tenemos los siguientes cuatro resultados para un estadístico que relaciona dicho parámetro de interés (θ\theta) con su respectivo estimador puntual (TT).

  1. Si son observaciones pareadas, entonces haga:

    X=X1X2X = X_1 - X_2 lo que implica que Xˉ=Xˉ1Xˉ2\bar{X} = \bar{X}_1 - \bar{X}_2 y μ=μ1μ2\mu = \mu_1 - \mu_2, quedando así en la situación de una media de una población (para los anteriores XX, Xˉ\bar{X} y μ\mu).

  2. Si NO son observaciones pareadas, con σ1\sigma_1 y σ2\sigma_2 conocidas, entonces, para nn suficientemente grande o bajo el supuesto de que la variable de interés de cada población tiene distribución normal se tiene que,

    (Xˉ1Xˉ2)(μ1μ2)σ12n1+σ22n2N(0,1)\frac{ \left( \bar{X}_1 - \bar{X}_2 \right) - \left( \mu_1 - \mu_2 \right)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim \mathcal{N}(0,1)

  3. Si NO son observaciones pareadas y se considera que σ1=σ2\sigma_1 = \sigma_2, entonces, bajo el supuesto de que la variable de interés de cada población tiene distribución normal se tiene que,

    (Xˉ1Xˉ2)(μ1μ2)Sp1n1+1n2tn1+n22\frac{ \left( \bar{X}_1 - \bar{X}_2 \right) - \left( \mu_1 - \mu_2 \right)}{S_p \, \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t_{n_1+n_2-2} donde Sp2=(n11)S12+(n21)S22n1+n22S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}

  4. Si NO son observaciones pareadas y se considera que σ1σ2\sigma_1 \neq \sigma_2, entonces, bajo el supuesto de que la variable de interés de cada población tiene distribución normal se tiene que,

    (Xˉ1Xˉ2)(μ1μ2)S12n1+S22n2tν\frac{ \left( \bar{X}_1 - \bar{X}_2 \right) - \left( \mu_1 - \mu_2 \right)}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}} \sim t_{\nu} donde, ν=(S12/n1+S22/n2)2(S12/n1)2n11+(S22/n2)2n21\nu = \left\lfloor \frac{\left(S_1^2/n_1+S_2^2/n_2\right)^2}{\frac{\left(S_1^2/n_1\right)^2}{n_1-1} + \frac{\left(S_2^2/n_2\right)^2}{n_2-1}} \right\rfloor

11.3.2 Proporciones

En el caso de las proporciones de dos poblaciones, sabemos que T=P1^P2^T = \hat{P_1} - \hat{P_2} es un estimador puntual de θ=p1p2\theta = p_1 - p_2. Además, bajo diferentes supuestos, tenemos los siguientes tres resultados para un estadístico que relaciona dicho parámetro de interés (θ\theta) con su respectivo estimador puntual (TT).

  1. Si son observaciones pareadas, entonces haga

    X=X1X2X = X_1 - X_2 lo que implica que Xˉ=P^1P^2\bar{X} = \hat{P}_1 - \hat{P}_2 y μ=p1p2\mu = p_1 - p_2, quedando así en la situación de una media de una población (para los anteriores XX, Xˉ\bar{X} y μ\mu).

  2. Si NO son observaciones pareadas y se considera que p1=p2p_1 = p_2, entonces, para nn suficientemente grade (n1p1>5\left( n_1p_1>5 \right., n2p2>5n_2p_2>5, n1(1p1)>5n_1(1-p_1)>5 y n2(1p2)>5)\left. n_2(1-p_2)>5 \right) se tiene que,

    (P^1P^2)(0)P^(1P^)(1n1+1n2)N(0,1)\frac{ \left( \hat{P}_1 - \hat{P}_2 \right) - \left( 0 \right)}{ \sqrt{\hat{P} (1-\hat{P}) \, \left(\frac{1}{n_1}+\frac{1}{n_2}\right)}} \sim \mathcal{N}(0,1) donde, P^=n1P^1+n2P^2n1+n2\hat{P} = \frac{n_1 \hat{P}_1 + n_2 \hat{P}_2}{n_1 + n_2}

  3. Si NO son observaciones pareadas y se considera que p1p2p_1 \neq p_2, entonces, para nn suficientemente grade (n1p1>5\left( n_1p_1>5 \right., n2p2>5n_2p_2>5, n1(1p1)>5n_1(1-p_1)>5 y n2(1p2)>5)\left. n_2(1-p_2)>5 \right) se tiene que,

    (P^1P^2)(p1p2)P^1(1P^1)n1+P^2(1P^2)n2N(0,1)\frac{ \left( \hat{P}_1 - \hat{P}_2 \right) - \left( p_1 - p_2 \right)}{\sqrt{\frac{\hat{P}_1\left(1-\hat{P}_1\right)}{n_1}+\frac{\hat{P}_2\left(1-\hat{P}_2\right)}{n_2}}} \sim \mathcal{N}(0,1)

11.3.3 Varianzas

En el caso de las varianzas (y/o desviaciones estándar) de dos poblaciones, sabemos que T=S12S22T = \frac{S_1^2}{S_2^2} es un estimador puntual de θ=σ12σ22\theta = \frac{\sigma_1^2}{\sigma_2^2}. Además, bajo el supuesto de que la variable de interés de cada población tiene distribución normal (X1X_1 y X2X_2), tenemos el siguiente resultado para un estadístico que relaciona dicho parámetro de interés (θ\theta) con su respectivo estimador puntual (TT).

S12σ12S22σ22=S12σ22S22σ12Fn11,n21\frac{\frac{S_1^2}{\sigma_1^2}}{\frac{S_2^2}{\sigma_2^2}} = \frac{S_1^2 \sigma_2^2}{S_2^2 \sigma_1^2} \sim F_{n_1-1,n_2-1}

Ejercicio 11.7  

Si S12S_1^2 y S22S_2^2 representan las varianzas de muestras aleatorias independientes de tamaños n1=25n_1 = 25 y n2=31n_2 = 31, tomadas de poblaciones normales con varianzas σ12=10\sigma_1^2 = 10 y σ22=15\sigma_2^2 = 15, respectivamente, calcule P[S12S22<1.26]P\left[\frac{S^2_1}{S^2_2} < 1.26\right].

Walpole, Myers & Myers (2012). Probabilidad y estadística para ingeniería y ciencias. (9a. ed.) Pearson Educación. Ejercicio 8.59.

Actividad autónoma Independiente (después de clase)
  • No olvide seleccionar y resolver ejercicios (con respuesta) de un libro, acerca de lo visto en esta sección. Por ejemplo, seleccionar ejercicios del capítulo 8 (sin las secciones 8.1 y 8.8) del libro de Walpole o del capítulo 7 (solamente los ejercicios asociados a las secciones 7.5 y 7.6) del libro de Anderson.