8  Aspectos generales

En esta sección se hará una revisión de algunos aspectos generales relacionados con el juzgamiento (la prueba) de hipótesis, específicamente en cuanto a conceptos y definiciones iniciales.

8.1 Conceptos y definiciones iniciales

Una hipótesis estadística es una aseveración o conjetura acerca de la distribución de una población, afirmación que generalmente queda determinada por la pertenencia de los parámetros a un subconjunto dado del espacio de parámetros.

El juzgamiento de una hipótesis estadística es un proceso que culmina con una decisión de rechazar o no rechazar una hipótesis, con base en la información de una muestra aleatoria X_1, \dots, X_n (de una población con función de densidad \mathrm{f}_X(x, \theta), es decir, el modelo probabilístico que se ha asumido para la población).

8.1.1 Hipótesis

La hipótesis sobre la cual se estructura el proceso de juzgamiento se denomina hipótesis nula, se denota H_0 y se enuncia como, H_0 : \theta \in \Theta_0 \subset \Theta.

La hipótesis elegida como contraste a la hipótesis nula se denomina hipótesis alterna, se denota H_1 (o H_a) y se enuncia como, H_1 : \theta \in \Theta_1 \subset \Theta, donde \Theta_0 \cap \Theta_1 = \emptyset.

La díada de hipótesis nula y alterna constituye el sistema de hipótesis del proceso de juzgamiento de la hipótesis nula, sistema que se enuncia como, H_0 : \theta \in \Theta_0 \\ \text{frente a} \\ H_1 : \theta \in \Theta_1

Una hipótesis se denomina hipótesis simple si con dicha aseveración queda plenamente especificada la distribución de la población. En caso contrario se denomina hipótesis compuesta.

8.1.2 Test y región crítica

El proceso de juzgamiento de la hipótesis nula conlleva un procedimiento, regla o norma, denominado test, que permite tomar la decisión a que haya lugar.

El test utilizado dentro del proceso de juzgamiento de la hipótesis nula H_0, tiene vinculado un subconjunto del espacio de las observaciones. Este subconjunto denotado por C_{\tau} queda establecido por su respectivo test así: \tau : \text{ Rechazar } H_0 \text{ si } \left(x_1, \dots, x_n\right) \in C_{\tau} El conjunto C_{\tau} se denomina región crítica o región de rechazo del test (para juzgar H_0) y el test así definido se denomina test no aleatorizado. El conjunto C_{\tau}^C, complemento del conjunto C_{\tau}, recibe el nombre de región de aceptación del test (para juzgar a H_0).

Ejemplo 8.1 (D. Anderson, D. Sweeney, T. Williams, J. Camm - Estadística para Negocios y Economía. 11ra Edición, Cengage Learning (2012). Capítulo 9. Ejercicio 60.) En una línea de producción, el peso promedio con que se llena cada recipiente es 16 onzas. Un llenado insuficiente ocasiona problemas serios y, cuando es detectado, es necesario que el operador detenga la línea de producción para reajustar el mecanismo de llenado. Con base en datos anteriores, se supone que la desviación estándar poblacional es 0.8 onzas. Cada hora, un inspector de control de calidad toma una muestra de 30 recipientes y decide si es necesario detener la producción y hacer un reajuste.

Se idealiza el llenado como una variable aleatoria y se adopta un modelo probabílistico para que determine su comportamiento. Por ejemplo, se puede suponer que el peso promedio con que se llena cada recipiente es una variable aleatoria normal con media \theta y varianza conocida 0.8^2.

La hipótesis H_0: \theta = 16 indica que el llenado está centrado en 16 onzas como se requiere. Además, claramente esta es una hipótesis simple. La afirmación de que el llenado es insuficiente se podría representar con la siguiente hipótesis compuesta H : \theta < 16. Estas dos afirmaciones se podrían utilizar dentro del siguiente sistema de hipótesis: H_0 : \theta = 16 \\ \text{frente a} \\ H_1 : \theta < 16 el cual representa la situación descrita.

Supongamos que un “experto” propone el siguiente test para el juzgamiento de H_0 dentro del anterior sistema de hipótesis. \tau : \text{ Rechazar } H_0 \text{ si } \bar{x} < 15.5 Lo que quiere decir que, según el “experto”, se debe detener la producción si el promedio de la muestra que toma el inspector es menor a 15.5. Naturalmente, la producción no se detiene en caso contrario.

La región crítica asociada al anterior test sería, C_{\tau} = \{ \left(x_1, \dots, x_n\right) : \bar{x} < 15.5 \}

8.1.3 Errores

Suponga que está en un juicio. Bajo la idea de que un acusado es inocente hasta que se demuestre lo contrario (el jurado debe encontrarlo culpable “más allá de la duda razonable”) entonces esta situación se puede representar con el siguiente sistema de hipótesis: \begin{aligned} H_0 &: \text{ El acusado es inocente} \\ &\text{frente a} \\ H_1 &: \text{ El acusado es culpable} \end{aligned} La evidencia (la información en la muestra) tiene que ser suficiente para condenar al acusado (rechazar H_0). En caso contrario, se dice que no hay suficiente evidencia para declararlo culpable (no se rechaza H_0 a partir de lo observado en la muestra).

El jurado puede tomar una decisión ajustada al sistema legal y a las evidencias, y aún así podría no coincidir con la realidad de los hechos ocurridos, hechos que el jurado no tiene forma de conocer más allá que por medio de la evidencia que se le presenta. Es decir, siguiendo únicamente la evidencia, el jurado podría declarar inocente a alguien que en realidad es culpable y viceversa. Así mismo, en el juzgamiento de hipótesis estadísticas se puede errar, rechazando la hipótesis nula cuando, sin saberlo, en realidad es verdadera o no rechazándola cuando, sin saberlo, en realidad es falsa.

Dentro del proceso de juzgamiento de la hipótesis nula, se denomina error de tipo I a la decisión de rechazar H_0, siendo verdadera la hipótesis; asimismo, se designa como error de tipo II a la decisión de no rechazar la hipótesis nula siendo ella falsa.

\, Rechazar H_0 No rechazar H_0
H_0 es cierta Error de tipo I Sin Error
H_0 es falsa Sin Error Error de tipo II

Sea X_1, \dots, X_n una muestra aleatoria de una población con función de densidad \mathrm{f}_X(x, \theta) y sea además \tau un test no aleatorizado para el juzgamiento de la hipótesis nula H_0 : \theta \in \Theta_0 definido como \tau : \text{ Rechazar } H_0 \text{ si } \left(x_1, \dots, x_n\right) \in C_{\tau} La función \varphi_{\tau}(\mathbf{x}) = \begin{cases} 1 & \text{ si } \mathbf{x}= (x_1, \dots, x_n) \in C_{\tau} \\ 0 & \text{ si } \mathbf{x} \in C_{\tau}^C \end{cases} se denomina función crítica del test no aleatorizado \tau.

El tamaño del test \tau, el nivel del test \tau, el tamaño de la región crítica C_{\tau} o la probabilidad de error de tipo I se refieren a lo mismo y suelen denotarse por \alpha, el cual está definido como, \alpha = \max_{\theta \in \Theta_0} P_{\theta} \left[ \varphi_{\tau}(\mathbf{X}) = 1 \right].

La probabilidad de error tipo II se suele denotar \beta.

Ejercicio 8.1 Sea X_1, \dots, X_n una muestra aleatoria de tamaño 10 de una población con distribución Bernoulli de parámetro \theta. Para juzgar la hipótesis nula H_0 : \theta \leq 0.75 dentro del sistema de hipótesis, \begin{aligned} H_0 &: \theta \leq 0.75 \\ &\text{frente a} \\ H_1 &: \theta > 0.75 \end{aligned} se propone el test, \begin{aligned} \tau : \text{Rechazar } H_0 \text{ si } \sum_{i=1}^{10} x_i &\geq 9 \\ \frac{1}{10} \sum_{i=1}^{10} x_i &\geq \frac{9}{10} \\ \bar{x} &\geq 0.9 \\ \hat{p} &\geq 0.9 \end{aligned} Calcular la probabilidad de error del tipo I (nivel del test).

Teniendo en cuenta que \sum_{i=1}^{10} x_i \sim Bin(10,\theta) entonces, \begin{aligned} P_{\theta}\left[ \varphi_{\tau}(\mathbf{X}) = 1 \right] &= P\left[ \sum_{i=1}^{10} X_i \geq 9 \right] \\ &= \binom{10}{9} \theta^9 (1 - \theta)^1 + \binom{10}{10} \theta^{10} (1 - \theta)^0 \\ &= 10 \theta^9 - 10 \theta^{10} + \theta^{10} \\ &= 10 \theta^9 - 9 \theta^{10} \end{aligned} y \begin{aligned} \alpha &= \max_{\theta \in (0,0.75]} P_{\theta}\left[ \varphi_{\tau}(\mathbf{X}) = 1 \right] \\ &= \max_{\theta \in (0,0.75]} \left\{ 10 \theta^9 - 9 \theta^{10} \right\} \\ &= 10 (0.75)^9 - 9 (0.75)^{10} \\ &= \frac{255879}{1048576} \\ &\approx 0.2440 \end{aligned}

Ejercicio 8.2 Retomando el Ejemplo 8.1 calcule el error de tipo I (\alpha) y de tipo II (\beta) para cada uno de los siguientes test y para varios valores de \theta:

(D. Anderson, D. Sweeney, T. Williams, J. Camm - Estadística para Negocios y Economía. 11ra Edición, Cengage Learning (2012). Capítulo 9. Ejercicio 60.) En una línea de producción, el peso promedio con que se llena cada recipiente es 16 onzas. Un llenado insuficiente ocasiona problemas serios y, cuando es detectado, es necesario que el operador detenga la línea de producción para reajustar el mecanismo de llenado. Con base en datos anteriores, se supone que la desviación estándar poblacional es 0.8 onzas. Cada hora, un inspector de control de calidad toma una muestra de 30 recipientes y decide si es necesario detener la producción y hacer un reajuste.

El sistema de hipótesis es, H_0 : \theta = 16 \\ \text{frente a} \\ H_1 : \theta < 16 y supongamos los siguientes tests, \tau_1 : \text{ Rechazar } H_0 \text{ si } \bar{x} < 15.81 \tau_2 : \text{ Rechazar } H_0 \text{ si } \bar{x} < 15.77 \tau_3 : \text{ Rechazar } H_0 \text{ si } \bar{x} < 15.64

La probabilidad de error tipo I para el primer test \tau_1 sería (usando las tablas estadísticas), \begin{aligned} \alpha &= P_{\theta_0} \left[ \varphi_{\tau_1}(\mathbf{X}) = 1 \right] \\ &= P_{\theta = 16} \left[ \bar{X} < 15.81 \right] \\ &= P \left[ Z < \frac{15.81 - 16}{\frac{0.8}{\sqrt{30}}} \right] \\ & \approx P \left[ Z < - 1.30\right] \\ & \approx 0.0968 \end{aligned} De la misma forma, se obtendría \alpha=0.0582 y \alpha=0.0069 para los test \tau_2 y \tau_3, respectivamente. Los tres test tendrían un tamaño o nivel inferior a 0.1.

Código
n <- 30 # Tamaño de la muestra
sigma <- 0.8 # Desviación estándar poblacional
theta_0 <- 16 # Hipótesis nula simple
bar.x.tau <- c(15.81, 15.77, 15.64) # medias muestrales de los tests
# P[ \bar{X} < bar.x.tau | theta = theta_0 ] y varianza conocida
alpha <- pnorm(bar.x.tau, mean = theta_0, sd = sigma/sqrt(n))
names(alpha) <- paste0("alpha.tau_", 1:3)
print(round(alpha, 6))
alpha.tau_1 alpha.tau_2 alpha.tau_3 
   0.096656    0.057663    0.006855 

La probabilidad de error tipo II para el primer test \tau_1, por ejemplo con \theta = 15.9, sería, \begin{aligned} \beta &= P_{\theta = 15.9} \left[ \bar{X} \geq 15.81 \right] \\ &= P \left[ Z \geq \frac{15.81 - 15.9}{\frac{0.8}{\sqrt{30}}} \right] \\ & \approx P \left[ Z \geq -0.62\right] \\ & \approx 1 - 0.2676 \\ & \approx 0.7324 \end{aligned}

Código
theta.f <- c(15.3, 15.5, 15.7, 15.9) # Algunos valores con H_0 falsa
i <- length(theta.f)
# P[ \bar{X} > bar.x.tau | theta = theta.f ] y varianza conocida
beta <- 1 - pnorm(rep(bar.x.tau, each = i), mean = theta.f, sd = sigma/sqrt(n))
res <- matrix(beta, 3, i, byrow = TRUE) # matriz
rownames(res) <- paste0("beta tau_", 1:3) # nombres de las filas
colnames(res) <- paste0("theta=", theta.f) # nombres de las columnas
print(round(res, 6))
           theta=15.3 theta=15.5 theta=15.7 theta=15.9
beta tau_1   0.000240   0.016901   0.225689   0.731115
beta tau_2   0.000646   0.032260   0.315878   0.813280
beta tau_3   0.009961   0.168902   0.659387   0.962470

A partir de los valores de \theta seleccionados, el test con las menores probabilidades de error tipo II es \tau_1.

En los anteriores ejercicios, los test fueron dados, y a partir de ellos, calculamos las probabilidades de errores tipo I y II. En particular, calculamos el nivel del test \left(\alpha\right) (probabilidad de error tipo I).

¿Será que es posible partir de un nivel de test \alpha dado y mediante el “proceso inverso” obtener o construir un test?

Ejercicio 8.3 Para cada uno de los parámetros \theta y las distribuciones \mathrm{f}_X(x; \theta) de la población de donde provienen las muestras que se trabajaron en el capítulo anterior (Estimación por intervalo), realice la deducción analítica completa que permita obtener un test, determinado por un estadístico de prueba y un(os) valor(es) crítico(s), para juzgar cada uno de los siguientes tres sistemas de hipótesis,

(i). 

\begin{aligned} H_0 &: \theta = \theta_0 \\ &\text{frente a} \\ H_1 &: \theta > \theta_0, \end{aligned} (ii). \begin{aligned} H_0 &: \theta = \theta_0 \\ &\text{frente a} \\ H_1 &: \theta < \theta_0, \end{aligned} (iii). \begin{aligned} H_0 &: \theta = \theta_0 \\ &\text{frente a} \\ H_1 &: \theta \neq \theta_0. \end{aligned}

8.1.4 Valor p o p-valor

Expresado de forma sencilla, un p‐valor es la probabilidad, bajo un modelo estadístico especificado, de que un estadístico que sintetiza alguna característica de los datos sea igual o más extremo que su valor observado.

Lea acerca de la declaración de la ASA sobre la significancia estadística y los p-valores (por ejemplo en: https://soce.iec.cat/wp-content/uploads/2016/04/efba1672f6161e2bbedc6acf6a6f8d45.pdf)

8.1.5 Relación entre pruebas de hipótesis e intervalos de confianza

¿Existe una relación entre las pruebas de hipótesis y los intervalos de confianza?

Una prueba de hipótesis a dos colas (H_a: \theta \neq \theta_0) con un nivel de significancia \alpha es equivalente a calcular un intervalo de confianza bilateral del 100(1-\alpha)\% para \theta y rechazar H_0 si \theta_0 está por fuera del intervalo.

En general, la región de “no rechazo” es equivalente a (es la transformación de) un intervalo de confianza del parámetro de interés.

8.2 Ejercicios

Para cada uno de los siguientes ejercicios: plantee el juzgamiento de hipótesis respectivo, y a partir de una variable pivote que corresponda a la situación dada, responda a lo solicitado.

Ejercicio 8.4  

La cámara de comercio de una comunidad de la costa del Golfo en Florida anuncia en su publicidad que hay disponibilidad de propiedades en el área residencial a un costo medio de \$125000 o menos por lote. Suponga que en una muestra de 32 propiedades se encuentra una media muestral de \$130000 por terreno y una desviación estándar muestral es \$12500. Use 0.05 como nivel de significancia para probar la validez de lo que se dice en la publicidad.

Anderson, Sweeney, Williams & Camm (2016). Estadística para Negocios y Economía. (12a. ed.) Cengage Learning. Capítulo 9. Ejercicio 66.

Ejercicio 8.5  

Una estación de radio de Myrtle Beach anuncia que, por lo menos, 90\% de los hoteles y moteles estarán llenos el fin de semana en que se conmemora el Día de los Caídos. La radiodifusora aconseja a sus oyentes hacer sus reservaciones con anticipación si piensan pasar ese fin de semana en esa localidad vacacional. La noche del sábado, una muestra de 58 hoteles y moteles, indicó que 49 estaban completamente llenos y 9 aún tenían habitaciones libres. ¿Cuál es su reacción ante lo anunciado por la estación de radio después de ver la evidencia muestral? Use \alpha = 0.05 al realizar el estadístico de prueba. ¿Cuál es el valor-p?

Anderson, Sweeney, Williams & Camm (2016). Estadística para Negocios y Economía. (12a. ed.) Cengage Learning. Capítulo 9. Ejercicio 72.

Ejercicio 8.6  

En una muestra de 9 días de los últimos seis meses se encontró que un dentista había tratado a los siguientes números de pacientes: 22, 25, 20, 18, 15, 22, 24, 19 y 26. Si el número de sujetos atendidos por día tiene una distribución normal, ¿un análisis de estos datos muestrales permitiría rechazar la hipótesis de que la varianza de la cantidad de pacientes atendidos por día es 10? Use un nivel de significancia de 0.10. ¿Cuál es su conclusión?

Anderson, Sweeney, Williams & Camm (2016). Estadística para Negocios y Economía. (12a. ed.) Cengage Learning. Capítulo 11. Ejercicio 29.

Ejercicio 8.7  

En los últimos años prolifera una cantidad cada vez mayor de opciones de entretenimiento que compiten por el tiempo de los consumidores. En 2004 la televisión por cable y la radio superaron a la televisión abierta, la música grabada y los periódicos, convirtiéndose en los medios de entretenimiento más usados (The Wall Street Journal, 26 de enero de 2004). Con una muestra de 15 individuos, los investigadores obtienen los datos de las horas por semana que destinan a ver televisión por cable y de las horas por semana en que escuchan la radio.

\, 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
TV 22 8 25 22 12 26 22 19 21 23 14 14 14 16 24
Radio 25 10 29 19 13 28 23 21 21 23 15 18 17 15 23

Use como nivel de significancia 0.05 y haga una prueba para la diferencia entre las medias poblacionales de la cantidad de horas destinadas a la televisión por cable y la cantidad de horas destinadas a la radio. ¿Cuál es el valor-p?

Anderson, Sweeney, Williams & Camm (2016). Estadística para Negocios y Economía. (12a. ed.) Cengage Learning. Capítulo 10. Ejercicio 25.

Ejercicio 8.8  

Con cierta periodicidad, Merrill Lynch solicita a sus clientes evaluaciones sobre los consultores y los servicios financieros que les proporciona. Las puntuaciones más altas en la encuesta de satisfacción del cliente indican mejor servicio con 7 como la puntuación más alta. A continuación se presentan en forma resumida las puntuaciones otorgadas a dos consultores financieros por los miembros de dos muestras aleatorias independientes. El consultor A tiene 10 años de experiencia, mientras que el consultor B tiene sólo 1 año. Use \alpha = 0.05 y realice una prueba para determinar si el consultor con más experiencia tiene la media poblacional más alta en la evaluación del servicio.

Consultor n \bar{x} s
A 16 6.82 0.64
B 10 6.25 0.75

Suponga varianzas iguales y repita suponiendo varianzas diferentes.

Anderson, Sweeney, Williams & Camm (2016). Estadística para Negocios y Economía. (12a. ed.) Cengage Learning. Capítulo 10. Ejercicio 17.

Ejercicio 8.9  

En un estudio de la Asociación Estadounidense de Automovilistas (AAA, por sus siglas en inglés) se investigó si era más probable que conductores de género masculino o femenino se detuvieran para solicitar indicaciones sobre cómo llegar a una dirección (AAA, enero de 2006). Se preguntaba a los conductores: “Si usted y su cónyuge van en su automóvil y se pierden, ¿se detiene para preguntar por el domicilio que busca?” En una muestra representativa se encontró que 300 de 811 mujeres dijeron que sí se detenían para preguntar, mientras que 255 de 750 hombres dijeron que también lo hacían. La hipótesis de investigación de AAA afirmaba que era más probable que las mujeres se detuvieran para preguntar por el domicilio. Pruebe la hipótesis usando \alpha = 0.05.

Anderson, Sweeney, Williams & Camm (2016). Estadística para Negocios y Economía. (12a. ed.) Cengage Learning. Capítulo 10. Ejercicio 32.

Ejercicio 8.10  

El Amstat News (diciembre de 2004) lista los sueldos medios de profesores asociados de estadística en instituciones de investigación, en escuelas de humanidades y en otras instituciones en Estados Unidos. Suponga que una muestra de 200 profesores asociados de instituciones de investigación tiene un sueldo promedio de \$70750 anuales con una desviación estándar de \$6000. Suponga también que una muestra de 200 profesores asociados de otros tipos de instituciones tienen un sueldo promedio de \$65200 con una desviación estándar de \$5000. Pruebe la hipótesis de que el sueldo medio de profesores asocia dos de instituciones de investigación es \$2000 más alto que el de los profesores de otras instituciones. Utilice un nivel de significancia de 0.01. Para determinar si debe usar varianzas iguales o distintas, realice la prueba de hipótesis respectiva.

Walpole, Myers & Myers (2012). Probabilidad y estadística para ingeniería y ciencias. (9a. ed.) Pearson Educación. Ejercicio 10.32.