14  Regresión lineal simple (RLS)

En esta sección se hará una corta y rápida revisión de algunos aspectos relacionados con el modelo de regresión lineal simple.

Actividad autónoma independiente (antes de las clases correspondientes a esta sección)
  • Lee todo el contenido de esta sección (Inferencia, 14. Regresión lineal simple).
  • En tus propias palabras, has una exposición escrita detallada en tu cuaderno sobre cada parte de lo leído, como si le estuvieras explicando a un compañero o amigo. Recuerda que aprendemos aproximadamente el 95% de lo que tratamos de enseñar a otros.
  • Anota cualquier duda o tema que te resulte confuso. ¡No te preocupes si no lo entiendes todo a la primera!
  • Busca por tu cuenta respuestas a esas dudas. Esto te ayudará a llegar a clase con ideas para compartir.
  • Lleva a clase: tu exposición escrita, tus dudas y las respuestas que encontraste. ¡Trabajaremos juntos para aclararlo todo!

14.1 Modelo

Y = \beta_0 + \beta_1 X + \varepsilon

  • Y es la variable respuesta, variable explicada o variable dependiente (“target”).

  • X es el regresor, variable explicativa o variable independiente (“features”).

  • \beta_0 es el coeficiente del ¿intercepto/intersecto? para la ecuación de la recta.

  • \beta_1 es el coeficiente de la pendiente para la ecuación de la recta.

  • \varepsilon es una variable aleatoria asociada al error.

Supuestos del modelo:

  • E[\varepsilon] = 0. Debido a que E[Y|x] = \beta_0 + \beta_1 x, entonces \beta_0 y \beta_1 deben ser constantes, y por lo tanto E[\varepsilon] = 0.

  • Var[\varepsilon] = \sigma^2. Debido a que Var[Y] = \sigma^2_Y = \sigma^2, entonces no hay variabilidad aportada por X, y por lo tanto Var[\varepsilon] = \sigma^2.

  • \varepsilon \sim \mathcal{N}(0,\sigma^2), que necesitamos para la parte inferencial (para las distribuciones muestrales que usaremos).

14.2 Recta estimada y residuo

Notación:

Sea \hat{b}_0 una estimación de \beta_0 y \hat{b}_1 una estimación de \beta_1.

Recta de regresión estimada:

La recta de regresión estimada está dada por:

\hat{y} = \hat{b}_0 + \hat{b}_1 \, x

Residuo:

El error en el ajuste o el residuo estimado para cada individuo es:

e_i = y_i - \hat{y}_i = y_i - \left(\hat{b}_0 + \hat{b}_1 \, x_i\right)

¿Cómo encuentro \hat{b}_0 y \hat{b}_1 (a partir de los valores conocidos y_i y x_i)?

14.3 Estimación por mínimos cuadrados

El objetivo es encontrar \hat{b}_0 y \hat{b}_1 tales que minimizan la suma de los cuadrados de los residuos.

\begin{aligned} \mathop{\mathrm{arg\,min}}_{\hat{b}_0,\hat{b}_1} SSE &= \mathop{\mathrm{arg\,min}}_{\hat{b}_0,\hat{b}_1} \sum_{i=1}^{n} e_i^2 \\ &= \mathop{\mathrm{arg\,min}}_{\hat{b}_0,\hat{b}_1} \sum_{i=1}^{n} \left[y_i - \left(\hat{b}_0 + \hat{b}_1 \, x_i\right)\right]^2 \end{aligned}

Solucionando el problema de minimización, se obtiene que,

\begin{aligned} \hat{b}_1 &= \frac{s_{xy}}{s_{xx}} \\ &= \frac{\sum_{i=1}^{n} \left(x_i - \bar{x}\right)\left(y_i - \bar{y}\right)}{\sum_{i=1}^{n} \left(x_i - \bar{x}\right)^2} \\ &= \frac{n \sum_{i=1}^{n} x_i y_i - \left( \sum_{i=1}^{n} x_i \right)\left( \sum_{i=1}^{n} y_i \right)}{n \sum_{i=1}^{n} x_i^2 - \left( \sum_{i=1}^{n} x_i \right)^2} \end{aligned}

y

\hat{b}_0 = \bar{y} - \hat{b}_1 \bar{x}

Ejercicio 14.1  

McGivern Jewelers se ubica en Levis Square Mall, al sur de Toledo, Ohio. Recientemente publicó un anuncio en redes sociodigitales donde indicaba forma, tamaño, precio y grado de corte de 33 de sus diamantes en existencia.

Lind, D. A., Marchal, W. G., Wathen, S. A. (2019). Estadística aplicada a los negocios y la economía. (17a. ed.) McGraw-Hill.

Los datos asociados a las cuatro variables de los 33 diamantes se encuentran en la pestaña “Datos” de la hoja de cálculo (Google Sheets):EjemploDatosDiamantesLind(15Ed)4.37.gsheet

Supongamos que los 33 diamantes no son unos datos poblacionales como lo hicimos en Capítulo 3 (Estadística Descriptiva, 3. Bivariada), sino consideremos hipotéticamente que son datos de una muestra aleatoria y que nos interesa modelar la relación entre tamaño y precio de los diamantes (inferir el modelo poblacional a partir de los datos muestrales).

14.4 Suma de cuadrados

Suma de cuadrados del error:

SSE = \sum_{i=1}^{n} e_i^2

Suma de cuadrados total:

\begin{aligned} SST &= \sum_{i=1}^{n} \left(y_i - \bar{y}\right)^2 \\ &= \sum_{i=1}^{n} y_i^2 - \frac{1}{n} \left(\sum_{i=1}^{n} y_i\right)^2 \end{aligned}

Suma de cuadrados de la regresión:

SSR = SST - SSE

14.5 Calidad de ajuste

Coeficiente de determinación R^2:

Se tiene que SST = SSR + SSE, donde SST es un valor fijo (dados los valores conocidos y_i). Por lo tanto, \frac{SSE}{SST} determina la proporción del error y, R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}, denominado coeficiente de determinación R^2, determina la proporción que es explicada por la regresión (con respecto a los valores o a la magnitud de los y_i).

Por otra parte, para el caso del modelo de regresión lineal simple se tiene que, R^2 = r_{xy}^2 donde r_{xy} es el coeficiente de correlación de Pearson muestral.

Coeficiente de determinación R^2 ajustado:

R^2_{ajustado} = 1 - \left(1 - R^2\right)\frac{n-1}{n-2}

14.6 Inferencia

Estimación puntual de \sigma^2:

s^2 = \frac{SSE}{n-2}

Distribución muestral para el estimador de \beta_1:

\frac{\hat{B}_1 - \beta_1}{\frac{S}{\sqrt{S_{xx}}}} \sim t_{n-2}

Distribución muestral para el estimador de \beta_0:

\frac{\hat{B}_0 - \beta_0}{S\sqrt{\frac{\frac{1}{n} \sum_{i=1}^{n} X_i^2}{S_{xx}}}} \sim t_{n-2}

A partir de las anteriores distribuciones muestrales, ¿cómo serían los intervalos de confianza y las pruebas de hipótesis para \beta_1 y \beta_0?

14.7 Análisis de varianza

Nuevamente teniendo en cuenta que SST = SSR + SSE, se puede construir la siguiente tabla, llamada tabla ANOVA,

Fuentes de variación Suma de cuadrados Grados de libertad Cuadrado medio Estadístico
Regresión SSR 1 MSR = \frac{SSR}{1} F = \frac{MSR}{MSE}
Error SSE n-2 MSE = \frac{SSE}{n-2}
Total SST n-1

Si F > f_{(\alpha, 1, n-2)} entonces se rechaza H_0: \beta_1 = 0 con un nivel de significancia \alpha (equivalente a la prueba de hipótesis que utiliza la distribución muestral del estimador de \beta_1). Adicionalmente, es claro que MSE es una estimación de \sigma^2.

14.8 Supuestos y gráficos de los residuales

  1. Los residuales son realizaciones de la variable aleatoria \varepsilon y el valor esperado de dicha variable es cero.

    • Gráfique i vs e_i. No debe haber patrones en la nube de puntos y los valores de los e_i deben estar “repartidos equitativamente” alrededor de cero.
  2. No hay relación entre \varepsilon y X.

    • Gráfique x_i vs e_i. No debe haber patrones en la nube de puntos.
  3. La varianza de \varepsilon es \sigma^2, es decir, la varianza es homogénea.

    • Gráfique \hat{y}_i vs e_i. No debe haber patrones en la nube de puntos.
  4. \varepsilon tiene una distribución normal (para las distribuciones muestrales de la parte inferencial).

    • Haga un qqplot (gráfico cuantil-cuatil) contra la distribución normal. La nube de puntos debe estar muy cercana a ser una recta (es mucho mejor hacer una prueba de normalidad. Investigar acerca del “Test de Shapiro-Wilk”).

14.9 Ejercicios

14.9.1 Ejercicio 1

Ir a Two Quantitative Variables

14.9.2 Ejercicio 2

Sean los datos muestrales que se encuentran en el archivo: Estatura-Peso.txt:

Teniendo en cuenta las variables Estatura y Peso, ¿cuál de las variables sería la variable explicada y cuál la variable explicativa? ¿por qué?.

14.9.2.1 Utilizando R

Referencias:

Lectura de datos:

Para leer los datos del archivo Estatura-Peso.txt y almacenarlos en la variable DatosEstud hacer:

DatosEstud <- read.table("ruta/Estatura-Peso.txt", sep="\t", header=TRUE, row.names=1, stringsAsFactors=TRUE)
# Para imprimir las primeras filas de lo almacenado en la variable DatosEstud:
head(DatosEstud) 
  ESTATURA PESO GENERO
1      170   60      M
2      169   57      F
3      172   51      F
4      174   55      F
5      168   50      F
6      161   50      F

Diagrama de dispersión:

Para realizar un diagrama de dispersión de las variables estatura y peso hacer:

# Par gráficar columnas 1 y 2 de la varible DatosEstud
plot(DatosEstud[,1:2], bty="n", pch="+") 

Modelo de regresión lineal simple:

La función lm obtiene el modelo de regresión lineal que se le indique, por ejemplo, peso = \beta_0 + \beta_1 estatura:

RegresionEstud <- lm(DatosEstud$PESO ~ DatosEstud$ESTATURA)
# Para imprimir algunos pocos detalles del modelo almacenado en RegresionEstud
RegresionEstud

Call:
lm(formula = DatosEstud$PESO ~ DatosEstud$ESTATURA)

Coefficients:
        (Intercept)  DatosEstud$ESTATURA  
           -97.7149               0.9302  

Es decir, se obtuvo como resultado que la recta de regresión estimada es:

\hat{y} = (-97.7148916) + (0.93021) x

o lo que es lo mismo, \hat{b}_0 = -97.7148916 y \hat{b}_1 = 0.93021.

Para graficar la recta asociada al modelo de regresión lineal almacenado en la variable RegresionEstud sobre el diagrama de dispersión hacer:

plot(DatosEstud[,1:2], bty="n", pch="+") # para graficar el diagrama
abline(RegresionEstud, lty=3) # para graficar la recta

Calidad de ajuste e inferencia:

Para ver el resumen asociado al modelo de regresión lineal almacenado en la variable RegresionEstud hacer:

summary(RegresionEstud)

Call:
lm(formula = DatosEstud$PESO ~ DatosEstud$ESTATURA)

Residuals:
     Min       1Q   Median       3Q      Max 
-14.3740  -4.0312  -0.3396   3.6490  17.1604 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)         -97.71489   15.74663  -6.205 4.50e-08 ***
DatosEstud$ESTATURA   0.93021    0.09033  10.298 3.28e-15 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.776 on 64 degrees of freedom
Multiple R-squared:  0.6236,    Adjusted R-squared:  0.6177 
F-statistic:   106 on 1 and 64 DF,  p-value: 3.278e-15

Intervalos de confianza:

La función confint obtiene los intervalos de confianza para los parámetros (coeficientes) del modelo de regresión lineal:

confint(RegresionEstud, level=0.95)
                           2.5 %     97.5 %
(Intercept)         -129.1723981 -66.257385
DatosEstud$ESTATURA    0.7497521   1.110668

Tabla ANOVA:

La función anova obtiene la tabla del análisis de varianza (tabla ANOVA) del modelo de regresión lineal:

anova(RegresionEstud)
Analysis of Variance Table

Response: DatosEstud$PESO
                    Df Sum Sq Mean Sq F value    Pr(>F)    
DatosEstud$ESTATURA  1 4868.7  4868.7  106.04 3.278e-15 ***
Residuals           64 2938.4    45.9                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Supuestos y gráficos de los residuales:

Gráfica de i vs e_i:

plot(RegresionEstud$res, bty="n", pch=16, ylab="Residuales")

Gráfica de x_i vs e_i:

plot(DatosEstud$ESTATURA, RegresionEstud$res, bty="n", pch=16, xlab="ESTATURA", ylab="Residuales")

Gráfica de \hat{y}_i vs e_i:

plot(RegresionEstud$fitt, RegresionEstud$res, bty="n", pch=16, xlab="PESO Estimado", ylab="Residuales")

Gráfica de \hat{y}_i vs e_i:

qqnorm(RegresionEstud$res, bty="n", pch=16, ylab="Residuales") # para los puntos
qqline(RegresionEstud$res) # para la recta

en donde, el anterior gráfico es equivalente al siguiente gráfico,

n <- nrow(DatosEstud)
plot(qnorm((1:n - 0.5)/n), sort(scale(RegresionEstud$res)), bty="n", pch=16, asp=TRUE, xlab="Cuantiles teóricos", ylab="Cuantiles observados")
abline(0, 1)

14.9.3 Ejercicio 3

Realice nuevamente el análisis del modelo de regresión lineal simple para el Ejercicio 2 pero obteniendo todos los valores con la calculadora o con una hoja de cálculo (verifique que los resultados coinciden con los obtenidos mediante R)

14.9.4 Ejercicio 4

Obtenga los modelos de regresión lineal simple para cada género por aparte y haga el análisis completo de los mismos. ¿Qué conclusiones saca con respecto al modelo que tenía incluidos todos los individuos?

Algunos aspectos asociados a otros modelos, relacionados con el modelo de regresión lineal simple, se pueden consultar en el Apéndice E (Otros modelos)

Actividad autónoma independiente (después de las clases correspondientes a esta sección)
  • No olvides seleccionar y resolver ejercicios de un libro acerca de lo visto en esta sección (preferiblemente que tengan respuesta). Por ejemplo, selecciona ejercicios del capítulo 11 (sin las secciones 11.6, 11.9 y 11.12) del libro de Walpole o del capítulo 14 (sin las secciones 14.6 y 14.9) del libro de Anderson.