Apéndice D — Juzgamiento no paramétrico
En este apéndice se hará una corta y rápida revisión de algunos aspectos relacionados con el juzgamiento / prueba de hipótesis no paramétrico, es decir, aquel juzgamiento en donde se hacen los menores supuestos que se pueda acerca de la población.
D.1 Algunas pruebas basadas en la distribución chi-cuadrado
A continuación se presentan tres pruebas de hipótesis que utilizan la distribución chi-cuadrado (\chi^2). Estas pruebas son especialmente útiles cuando se trabaja con datos categóricos, es decir, cuando las observaciones se agrupan en categorías.
Estas pruebas se basan en la comparación entre frecuencias observadas y frecuencias esperadas, y se aplican ampliamente en el análisis de datos categóricos en distintas disciplinas.
A diferencia de las pruebas anteriores, no requieren que la variable de interés sea continua ni que siga una distribución específica, por lo que se consideran no paramétricas. Sin embargo, su validez depende de contar con una muestra suficientemente grande para que la aproximación mediante la distribución \chi^2 sea adecuada.
D.1.1 Prueba de independencia
Esta prueba permite evaluar si existe o no asociación entre dos variables categóricas medidas en la misma población.
Ejemplo de aplicación: analizar si existe relación entre el género (masculino/femenino) y la preferencia por un tipo de película (acción, comedia, drama).
Hipótesis:
- H_0: las variables son independientes.
- H_1: las variables están asociadas.
Los datos se presentan en una tabla de contingencia, y se utiliza el siguiente estadístico:
\chi^2 = \sum_{i=1}^r \sum_{j=1}^c \frac{(O_{ij} - E_{ij})^2}{E_{ij}}, \quad \text{con } E_{ij} = \frac{(n_{i\cdot})(n_{\cdot j})}{n}
donde:
- r = número de filas (categorías de una variable),
- c = número de columnas (categorías de la otra variable),
- O_{ij} = frecuencia observada en la celda (i,j),
- E_{ij} = frecuencia esperada bajo H_0.
Grados de libertad: (r-1)(c-1)
Consideraciones:
- Las observaciones deben ser independientes: cada individuo o unidad debe aparecer solo una vez en la tabla, sin respuestas múltiples ni datos repetidos.
- Las frecuencias esperadas en cada celda de la tabla deben ser suficientemente grandes, típicamente al menos 5. Si alguna categoría tiene una frecuencia esperada menor, se recomienda combinarla con otra para cumplir este requisito y asegurar la validez de la aproximación a la distribución chi-cuadrado.
- Las categorías de ambas variables deben ser mutuamente excluyentes (cada observación solo puede pertenecer a una categoría por variable) y colectivamente exhaustivas (todas las posibles respuestas deben estar representadas).
D.1.2 Prueba de homogeneidad
Esta prueba se usa para determinar si dos o más poblaciones presentan la misma distribución respecto a una variable categórica.
Ejemplo de aplicación: evaluar si estudiantes de distintas facultades tienen la misma preferencia por un tipo de bebida.
Hipótesis:
- H_0: las poblaciones son homogéneas respecto a la variable categórica (tienen la misma distribución).
- H_1: al menos una población tiene una distribución diferente.
Se usa también una tabla de contingencia de doble entrada, y el mismo estadístico de prueba:
\chi^2 = \sum_{i=1}^r \sum_{j=1}^c \frac{(O_{ij} - E_{ij})^2}{E_{ij}}, \quad \text{con } E_{ij} = \frac{(n_{i\cdot})(n_{\cdot j})}{n}
donde:
- r = número de filas (poblaciones),
- c = número de columnas (categorías de la variable),
- O_{ij} = frecuencia observada en la celda (i,j),
- E_{ij} = frecuencia esperada bajo H_0.
Grados de libertad: (r-1)(c-1)
Consideraciones:
- Las observaciones dentro de cada grupo o población deben ser independientes entre sí y también independientes entre grupos. Cada unidad debe aportar una única observación.
- Las frecuencias esperadas en cada celda de la tabla deben ser suficientemente grandes, generalmente al menos 5. Si alguna celda tiene una frecuencia esperada menor, puede ser necesario combinar categorías para mantener la validez del análisis.
- Las categorías de la variable analizada deben ser mutuamente excluyentes, es decir, cada observación debe pertenecer a una sola categoría. También deben ser colectivamente exhaustivas, de modo que todas las posibles respuestas estén representadas.
D.1.3 Prueba de bondad de ajuste chi-cuadrado
Esta prueba se utiliza para evaluar si una distribución de frecuencias observadas difiere significativamente de una distribución teórica esperada.
Ejemplo de aplicación: comprobar si los resultados de lanzar un dado 60 veces se ajustan a una distribución uniforme (esperaríamos 10 veces cada cara).
Hipótesis:
- H_0: los datos siguen la distribución teórica propuesta.
- H_1: los datos no siguen la distribución teórica propuesta.
Estadístico de prueba:
\chi^2 = \sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i}
donde:
- O_i = frecuencia observada en la categoría i,
- E_i = frecuencia esperada bajo H_0,
- k = número de categorías.
Consideraciones:
- Las observaciones deben ser independientes entre sí. Cada dato debe provenir de una unidad distinta y aportar una única respuesta.
- Las frecuencias esperadas en cada categoría deben ser suficientemente grandes, generalmente al menos 5. Si alguna categoría tiene una frecuencia esperada menor, es recomendable agrupar categorías para cumplir con este requisito y garantizar la validez de la aproximación a la distribución chi-cuadrado.
- Las categorías deben estar claramente definidas, ser mutuamente excluyentes (cada observación pertenece a una sola categoría) y colectivamente exhaustivas (todas las posibles respuestas deben estar contempladas).
- La distribución teórica con la que se compara la muestra debe estar completamente especificada. Si se utilizan parámetros estimados a partir de los datos, se debe ajustar el número de grados de libertad restando también la cantidad de parámetros estimados.
D.2 Prueba de bondad de ajuste de Kolmogorov-Smirnov
La prueba de Kolmogorov-Smirnov (K-S) es una prueba no paramétrica que se utiliza para evaluar si una muestra proviene de una distribución teórica específica. A diferencia de la prueba \chi^2 de bondad de ajuste, que se basa en frecuencias en clases, la prueba K-S se basa en la comparación entre funciones de distribución acumuladas.
Es particularmente útil cuando se trabaja con variables cuantitativas continuas, y cuando se desea evitar la arbitrariedad de agrupar los datos en intervalos.
Ejemplo de aplicación: evaluar si los tiempos de atención al cliente en una oficina siguen una distribución exponencial, como se espera en ciertos procesos de llegada aleatoria.
Hipótesis:
- H_0: la muestra proviene de la distribución teórica especificada (por ejemplo: exponencial, normal, etc.).
- H_1: la muestra no proviene de dicha distribución.
Estadístico de prueba:
El estadístico de Kolmogorov-Smirnov se define como la máxima diferencia absoluta entre la función de distribución empírica F_n(x) de la muestra y la función de distribución teórica F(x):
D = \sup_x |F_n(x) - F(x)|
donde:
- F_n(x) es la función de distribución empírica basada en la muestra,
- F(x) es la función de distribución acumulada bajo la hipótesis nula,
- \sup_x indica el supremo (máximo) de las diferencias absolutas entre ambas funciones.
Consideraciones:
- Las observaciones deben ser independientes entre sí; cada dato de la muestra debe provenir de una unidad distinta y aportar una única medición.
- La distribución teórica con la que se compara la muestra debe estar completamente especificada, es decir, con todos sus parámetros conocidos de antemano. Si los parámetros (como la media o la desviación estándar, en el caso de una distribución normal) se estiman a partir de los mismos datos, se requiere utilizar una versión ajustada de la prueba, como la prueba de Lilliefors (no abordada en este curso).
- La prueba es sensible a diferencias tanto en la posición (por ejemplo, un desplazamiento hacia valores mayores o menores) como en la forma de la distribución (por ejemplo, cambios en la dispersión o en las colas). Por ello, al interpretar los resultados, es importante considerar qué tipo de diferencias se buscan detectar y si la prueba es adecuada para ese propósito.
- Es más adecuada para muestras pequeñas o moderadas. En muestras grandes, incluso pequeñas desviaciones respecto a la distribución teórica pueden dar lugar a resultados estadísticamente significativos, por lo que se requiere una interpretación cuidadosa.
Aplicaciones:
Se utiliza principalmente para:
- Comparar la muestra con distribuciones teóricas continuas en general.
- Evaluar si una muestra proviene de una distribución normal (cuando no se desea usar pruebas basadas en momentos, como Shapiro-Wilk).
La prueba de Kolmogorov-Smirnov también cuenta con una versión para dos muestras independientes, que permite comparar si dos poblaciones tienen la misma distribución para una misma variable. Esta prueba no requiere asumir ninguna forma específica para la distribución y es útil cuando se quiere analizar si las distribuciones difieren en algún aspecto (posición, dispersión o forma).
D.3 Prueba de signos
Ejercicio D.1
Los siguientes datos representan el tiempo, en minutos, que un paciente tiene que esperar durante 12 visitas al consultorio de un médico antes de ser atendido:
17 15 20 20 32 28 12 26 25 25 35 24 Utilice la prueba de signo a un nivel de significancia de 0.05 para probar la afirmación del médico de que la mediana del tiempo de espera de sus pacientes no es mayor de 20 minutos.
Walpole, Myers & Myers (2012). Probabilidad y estadística para ingeniería y ciencias. (9a. ed.) Pearson Educación. Ejercicio 16.1.
Para la hipótesis alternativa con respecto a la mediana: H_a: \tilde{\mu} < m_0 (con la respectiva hipótesis nula), el valor del estadístico de prueba se obtiene con:
w = \text{Número de valores en la muestra aleatoria que son mayores que } m_0 y la distribución muestral es W \sim Binomial(n=n^*, p=0.5), donde n^* es el número de valores en la muestra que son diferentes de m_0. P[W \leq w] es el valor p (p-valor).
- Para la hipótesis alternativa H_a: \tilde{\mu} > m_0, P[W \geq w] es el valor p (p-valor).
- Para la hipótesis alternativa H_a: \tilde{\mu} \neq m_0, si w < n^*/2 entonces 2 P[W \leq w] es el valor p (p-valor), si w > n^*/2 entonces 2 P[W \geq w] es el valor p (p-valor).
- El método también funciona para la diferencia de medianas con observaciones pareadas H_a: \tilde{\mu}_1 - \tilde{\mu}_2 < d_0 (> d_0 o \neq d_0).
D.4 Prueba de rangos con signo de Wilcoxon
Ejercicio D.2
Se afirma que una nueva dieta reducirá el peso de una persona en 4.5 kilogramos, en promedio, en un periodo de dos semanas. Se registran los pesos de 10 mujeres que siguen esta dieta, antes y después de un periodo de dos semanas, y se obtienen los siguientes datos:
\, 1 2 3 4 5 6 7 8 9 10 Antes 58.5 60.3 61.7 69 64 62.6 56.7 63.6 68.2 59.4 Después 60 54.9 58.1 62.1 58.5 59.9 54.4 60.2 62.3 58.7 Utilice la prueba de rango con signo a un nivel de significancia de 0.05 para probar la hipótesis de que la dieta reduce la mediana del peso en 4.5 kilogramos, en comparación con la hipótesis alternativa de que la mediana de la pérdida de peso es menor que 4.5 kilogramos.
Walpole, Myers & Myers (2012). Probabilidad y estadística para ingeniería y ciencias. (9a. ed.) Pearson Educación. Ejercicio 16.11 (Ejercicio 16.5).
Para la hipótesis alternativa con respecto a la mediana: H_a: \tilde{\mu} < m_0 (con la respectiva hipótesis nula), el valor del estadístico de prueba se obtiene así:
Se ordena de menor a mayor, el valor absoluto de la diferencia de cada dato con respecto a la hipótesis nula, y se asignan las posiciones (rangos) conservando el signo de la diferencia (en caso de empates se asigna la “posición” central).
Se suman las posiciones (rangos) con signo positivo obteniendo el estadístico de prueba w_+.
El valor crítico se puede encontrar en tablas, mediante software estadístico, o para n suficientemente grande se puede utilizar \frac{W_+ - \frac{n(n+1)}{4}}{\sqrt{\frac{n(n+1)(2n+1)}{24}}} \sim \mathcal{N}(0,1). Se rechaza H_0 si w_+ es menor o igual que el valor crítico tabulado.
- El método también funciona para la diferencia de medianas con observaciones pareadas.
- El método fue desarrollado bajo la idea de que la distribución (población) es continua.
- Si la distribución (población) es simétrica, por obvias razones, se puede hablar de media (o medias) en vez de mediana (o medianas).
- Para H_a: \tilde{\mu} > m_0 se toma w_{-}. Se rechaza H_0 si w_- es menor o igual que el valor crítico tabulado.
- Para H_a: \tilde{\mu} \neq m_0 se toma w=\min\{w_+,w_-\}. Se rechaza H_0 si w es menor o igual que el valor crítico tabulado.
D.5 Prueba U de Mann-Withney (suma de rangos de Wilcoxon)
Ejercicio D.3
Un fabricante de cigarrillos afirma que el contenido de alquitrán de la marca de cigarrillos B es menor que la de la marca A. Para probar esta afirmación se registraron las siguientes medidas del contenido de alquitrán, en miligramos:
Marca A 1 12 9 13 11 14 Marca B 8 10 7 Utilice la prueba de suma de rangos con un nivel de significancia de 0.05 para probar si la afirmación es válida.
Walpole, Myers & Myers (2012). Probabilidad y estadística para ingeniería y ciencias. (9a. ed.) Pearson Educación. Ejercicio 16.15.
Para la diferencia de medianas con observaciones independientes: H_a: \tilde{\mu}_1 < \tilde{\mu}_2, el valor del estadístico de prueba se obtiene así:
Las observaciones de las dos poblaciones se unen en un solo grupo de datos, se ordenan ascendentemente (sin perder el registro de la población a la que pertenece cada dato), y se asigna la posición (es decir el rango. De nuevo, en caso de empate se asigna la “posición” central).
Se suman los rangos correspondientes a la primera población obteniendo w_1.
El estadístico de prueba es u_1 = w_1 - \frac{n_1(n_1 + 1)}{2}
El valor crítico asociado a la distribución muestral se puede encontrar en tablas, mediante software estadístico, o para n suficientemente grande se puede utilizar \frac{U_1 - \frac{(n_1)(n_2)}{2}}{\sqrt{\frac{(n_1)(n_2)(n_1+n_2+1)}{12}}} \sim \mathcal{N}(0,1). Se rechaza H_0 si u_1 es menor o igual que el valor crítico tabulado.
- El método fue desarrollado bajo la idea de que la distribución (población) es continua.
- Si la distribución (población) es simétrica, por obvias razones, se puede hablar de medias en vez de medianas.
- Investigar qué cambia para cuando H_a: \tilde{\mu}_1 > \tilde{\mu}_2 y para cuando H_a: \tilde{\mu}_1 \neq \tilde{\mu}_2.