14  Regresión lineal simple

En esta sección se hará una corta y rápida revisión de algunos aspectos relacionados con el modelo de regresión lineal simple.

14.1 Para empezar

Actividad autónoma independiente (antes de las clases correspondientes a esta sección)
  • Lee todo el contenido de esta sección (Inferencia, 14. Regresión lineal simple).
  • En tus propias palabras, has una exposición escrita detallada en tu cuaderno sobre cada parte de lo leído, como si le estuvieras explicando a un compañero o amigo. Recuerda que aprendemos aproximadamente el 95% de lo que tratamos de enseñar a otros.
  • Anota cualquier duda o tema que te resulte confuso. ¡No te preocupes si no lo entiendes todo a la primera!
  • Busca por tu cuenta respuestas a esas dudas. Esto te ayudará a llegar a clase con ideas para compartir.
  • Lleva a clase: tu exposición escrita, tus dudas y las respuestas que encontraste. ¡Trabajaremos juntos para aclararlo todo!

14.2 Modelo

Y = \beta_0 + \beta_1 X + \varepsilon

  • Y es la variable respuesta, variable explicada o variable dependiente (“target”).

  • X es el regresor, variable explicativa o variable independiente (“features”).

  • \beta_0 es el coeficiente del ¿intercepto/intersecto? para la ecuación de la recta.

  • \beta_1 es el coeficiente de la pendiente para la ecuación de la recta.

  • \varepsilon es una variable aleatoria asociada al error.

Supuestos del modelo:

  • E[\varepsilon] = 0. Debido a que E[Y|x] = \beta_0 + \beta_1 x, entonces \beta_0 y \beta_1 deben ser constantes, y por lo tanto E[\varepsilon] = 0.

  • Var[\varepsilon] = \sigma^2. Debido a que Var[Y] = \sigma^2_Y = \sigma^2, entonces no hay variabilidad aportada por X, y por lo tanto Var[\varepsilon] = \sigma^2.

  • \varepsilon \sim \mathcal{N}(0,\sigma^2), que necesitamos para la parte inferencial (para las distribuciones muestrales que usaremos).

14.3 Recta estimada y residuo

Notación:

Sea \hat{b}_0 una estimación de \beta_0 y \hat{b}_1 una estimación de \beta_1.

Recta de regresión estimada:

La recta de regresión estimada está dada por:

\hat{y} = \hat{b}_0 + \hat{b}_1 \, x

Residuo:

El error en el ajuste o el residuo estimado para cada individuo es:

e_i = y_i - \hat{y}_i = y_i - \left(\hat{b}_0 + \hat{b}_1 \, x_i\right)

¿Cómo encuentro \hat{b}_0 y \hat{b}_1 (a partir de los valores conocidos y_i y x_i)?

14.4 Estimación por mínimos cuadrados

El objetivo es encontrar \hat{b}_0 y \hat{b}_1 tales que minimizan la suma de los cuadrados de los residuos.

\begin{aligned} \mathop{\mathrm{arg\,min}}_{\hat{b}_0,\hat{b}_1} SSE &= \mathop{\mathrm{arg\,min}}_{\hat{b}_0,\hat{b}_1} \sum_{i=1}^{n} e_i^2 \\ &= \mathop{\mathrm{arg\,min}}_{\hat{b}_0,\hat{b}_1} \sum_{i=1}^{n} \left[y_i - \left(\hat{b}_0 + \hat{b}_1 \, x_i\right)\right]^2 \end{aligned}

Solucionando el problema de minimización, se obtiene que,

\begin{aligned} \hat{b}_1 &= \frac{s_{xy}}{s_{xx}} \\ &= \frac{\sum_{i=1}^{n} \left(x_i - \bar{x}\right)\left(y_i - \bar{y}\right)}{\sum_{i=1}^{n} \left(x_i - \bar{x}\right)^2} \\ &= \frac{n \sum_{i=1}^{n} x_i y_i - \left( \sum_{i=1}^{n} x_i \right)\left( \sum_{i=1}^{n} y_i \right)}{n \sum_{i=1}^{n} x_i^2 - \left( \sum_{i=1}^{n} x_i \right)^2} \end{aligned}

y

\hat{b}_0 = \bar{y} - \hat{b}_1 \bar{x}

Ejercicio 14.1  

McGivern Jewelers se ubica en Levis Square Mall, al sur de Toledo, Ohio. Recientemente publicó un anuncio en redes sociodigitales donde indicaba forma, tamaño, precio y grado de corte de 33 de sus diamantes en existencia.

Lind, D. A., Marchal, W. G., Wathen, S. A. (2019). Estadística aplicada a los negocios y la economía. (17a. ed.) McGraw-Hill.

Los datos asociados a las cuatro variables de los 33 diamantes se encuentran en la pestaña “Datos” de la hoja de cálculo (Google Sheets):EjemploDatosDiamantesLind(15Ed)4.37.gsheet

Supongamos que los 33 diamantes no son unos datos poblacionales como lo hicimos en Capítulo 3 (Estadística Descriptiva, 3. Bivariada), sino consideremos hipotéticamente que son datos de una muestra aleatoria y que nos interesa modelar la relación entre tamaño y precio de los diamantes (inferir el modelo poblacional a partir de los datos muestrales).

14.5 Suma de cuadrados

Suma de cuadrados del error:

SSE = \sum_{i=1}^{n} e_i^2

Suma de cuadrados total:

\begin{aligned} SST &= \sum_{i=1}^{n} \left(y_i - \bar{y}\right)^2 \\ &= \sum_{i=1}^{n} y_i^2 - \frac{1}{n} \left(\sum_{i=1}^{n} y_i\right)^2 \end{aligned}

Suma de cuadrados de la regresión:

SSR = SST - SSE

14.6 Calidad de ajuste

Coeficiente de determinación R^2:

Se tiene que SST = SSR + SSE, donde SST es un valor fijo (dados los valores conocidos y_i). Por lo tanto, \frac{SSE}{SST} determina la proporción del error y, R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}, denominado coeficiente de determinación R^2, determina la proporción que es explicada por la regresión (con respecto a los valores o a la magnitud de los y_i).

Por otra parte, para el caso del modelo de regresión lineal simple se tiene que, R^2 = r_{xy}^2 donde r_{xy} es el coeficiente de correlación de Pearson muestral.

Coeficiente de determinación R^2 ajustado:

R^2_{ajustado} = 1 - \left(1 - R^2\right)\frac{n-1}{n-2}

14.7 Inferencia

Estimación puntual de \sigma^2:

s^2 = \frac{SSE}{n-2}

Distribución muestral para el estimador de \beta_1:

\frac{\hat{B}_1 - \beta_1}{\frac{S}{\sqrt{S_{xx}}}} \sim t_{n-2}

Distribución muestral para el estimador de \beta_0:

\frac{\hat{B}_0 - \beta_0}{S\sqrt{\frac{\frac{1}{n} \sum_{i=1}^{n} X_i^2}{S_{xx}}}} \sim t_{n-2}

A partir de las anteriores distribuciones muestrales, ¿cómo serían los intervalos de confianza y las pruebas de hipótesis para \beta_1 y \beta_0?

14.8 Análisis de varianza

Nuevamente teniendo en cuenta que SST = SSR + SSE, se puede construir la siguiente tabla, llamada tabla ANOVA,

Fuentes de variación Suma de cuadrados Grados de libertad Cuadrado medio Estadístico
Regresión SSR 1 MSR = \frac{SSR}{1} F = \frac{MSR}{MSE}
Error SSE n-2 MSE = \frac{SSE}{n-2}
Total SST n-1

Si F > f_{(\alpha, 1, n-2)} entonces se rechaza H_0: \beta_1 = 0 con un nivel de significancia \alpha (equivalente a la prueba de hipótesis que utiliza la distribución muestral del estimador de \beta_1). Adicionalmente, es claro que MSE es una estimación de \sigma^2.

14.9 Supuestos y gráficos de los residuales

  1. Los residuales son realizaciones de la variable aleatoria \varepsilon y el valor esperado de dicha variable es cero.

    • Gráfique i vs e_i. No debe haber patrones en la nube de puntos y los valores de los e_i deben estar “repartidos equitativamente” alrededor de cero.
  2. No hay relación entre \varepsilon y X.

    • Gráfique x_i vs e_i. No debe haber patrones en la nube de puntos.
  3. La varianza de \varepsilon es \sigma^2, es decir, la varianza es homogénea.

    • Gráfique \hat{y}_i vs e_i. No debe haber patrones en la nube de puntos.
  4. \varepsilon tiene una distribución normal (para las distribuciones muestrales de la parte inferencial).

    • Haga un qqplot (gráfico cuantil-cuatil) contra la distribución normal. La nube de puntos debe estar muy cercana a ser una recta (es mucho mejor hacer una prueba de normalidad. Investigar acerca del “Test de Shapiro-Wilk”).

14.10 Ejercicios

14.10.1 Ejercicio 1

Ir a Two Quantitative Variables

14.10.2 Ejercicio 2

Sean los datos muestrales que se encuentran en el archivo: Estatura-Peso.txt:

Teniendo en cuenta las variables Estatura y Peso, ¿cuál de las variables sería la variable explicada y cuál la variable explicativa? ¿por qué?.

14.10.2.1 Utilizando R

Referencias:

Lectura de datos:

Para leer los datos del archivo Estatura-Peso.txt y almacenarlos en la variable DatosEstud hacer:

DatosEstud <- read.table("ruta/Estatura-Peso.txt", sep="\t", header=TRUE, row.names=1, stringsAsFactors=TRUE)
# Para imprimir las primeras filas de lo almacenado en la variable DatosEstud:
head(DatosEstud) 
  ESTATURA PESO GENERO
1      170   60      M
2      169   57      F
3      172   51      F
4      174   55      F
5      168   50      F
6      161   50      F

Diagrama de dispersión:

Para realizar un diagrama de dispersión de las variables estatura y peso hacer:

# Par gráficar columnas 1 y 2 de la varible DatosEstud
plot(DatosEstud[,1:2], bty="n", pch="+") 

Modelo de regresión lineal simple:

La función lm obtiene el modelo de regresión lineal que se le indique, por ejemplo, peso = \beta_0 + \beta_1 estatura:

RegresionEstud <- lm(DatosEstud$PESO ~ DatosEstud$ESTATURA)
# Para imprimir algunos pocos detalles del modelo almacenado en RegresionEstud
RegresionEstud

Call:
lm(formula = DatosEstud$PESO ~ DatosEstud$ESTATURA)

Coefficients:
        (Intercept)  DatosEstud$ESTATURA  
           -97.7149               0.9302  

Es decir, se obtuvo como resultado que la recta de regresión estimada es:

\hat{y} = (-97.7148916) + (0.93021) x

o lo que es lo mismo, \hat{b}_0 = -97.7148916 y \hat{b}_1 = 0.93021.

Para graficar la recta asociada al modelo de regresión lineal almacenado en la variable RegresionEstud sobre el diagrama de dispersión hacer:

plot(DatosEstud[,1:2], bty="n", pch="+") # para graficar el diagrama
abline(RegresionEstud, lty=3) # para graficar la recta

Calidad de ajuste e inferencia:

Para ver el resumen asociado al modelo de regresión lineal almacenado en la variable RegresionEstud hacer:

summary(RegresionEstud)

Call:
lm(formula = DatosEstud$PESO ~ DatosEstud$ESTATURA)

Residuals:
     Min       1Q   Median       3Q      Max 
-14.3740  -4.0312  -0.3396   3.6490  17.1604 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)         -97.71489   15.74663  -6.205 4.50e-08 ***
DatosEstud$ESTATURA   0.93021    0.09033  10.298 3.28e-15 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.776 on 64 degrees of freedom
Multiple R-squared:  0.6236,    Adjusted R-squared:  0.6177 
F-statistic:   106 on 1 and 64 DF,  p-value: 3.278e-15

Intervalos de confianza:

La función confint obtiene los intervalos de confianza para los parámetros (coeficientes) del modelo de regresión lineal:

confint(RegresionEstud, level=0.95)
                           2.5 %     97.5 %
(Intercept)         -129.1723981 -66.257385
DatosEstud$ESTATURA    0.7497521   1.110668

Tabla ANOVA:

La función anova obtiene la tabla del análisis de varianza (tabla ANOVA) del modelo de regresión lineal:

anova(RegresionEstud)
Analysis of Variance Table

Response: DatosEstud$PESO
                    Df Sum Sq Mean Sq F value    Pr(>F)    
DatosEstud$ESTATURA  1 4868.7  4868.7  106.04 3.278e-15 ***
Residuals           64 2938.4    45.9                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Supuestos y gráficos de los residuales:

Gráfica de i vs e_i:

plot(RegresionEstud$res, bty="n", pch=16, ylab="Residuales")

Gráfica de x_i vs e_i:

plot(DatosEstud$ESTATURA, RegresionEstud$res, bty="n", pch=16, xlab="ESTATURA", ylab="Residuales")

Gráfica de \hat{y}_i vs e_i:

plot(RegresionEstud$fitt, RegresionEstud$res, bty="n", pch=16, xlab="PESO Estimado", ylab="Residuales")

Gráfica de \hat{y}_i vs e_i:

qqnorm(RegresionEstud$res, bty="n", pch=16, ylab="Residuales") # para los puntos
qqline(RegresionEstud$res) # para la recta

en donde, el anterior gráfico es equivalente al siguiente gráfico,

n <- nrow(DatosEstud)
plot(qnorm((1:n - 0.5)/n), sort(scale(RegresionEstud$res)), bty="n", pch=16, asp=TRUE, xlab="Cuantiles teóricos", ylab="Cuantiles observados")
abline(0, 1)

14.10.3 Ejercicio 3

Realice nuevamente el análisis del modelo de regresión lineal simple para el Ejercicio 2 pero obteniendo todos los valores con la calculadora o con una hoja de cálculo (verifique que los resultados coinciden con los obtenidos mediante R)

14.10.4 Ejercicio 4

Obtenga los modelos de regresión lineal simple para cada género por aparte y haga el análisis completo de los mismos. ¿Qué conclusiones saca con respecto al modelo que tenía incluidos todos los individuos?

14.11 Mención a otros modelos (Opcional)

14.11.1 Modelo de regresión lineal múltiple

Y = \beta_0 + \beta_1 X_1 + \dots + \beta_k X_k + \varepsilon

  • Y es la variable respuesta, variable explicada o variable dependiente.

  • X_1, \dots, X_k son los regresores, variables explicativas o variables independientes.

  • \beta_0 es el coeficiente del intersecto para la ecuación de la recta.

  • \beta_i es el coeficiente correspondiente a la i-ésima variable.

  • \varepsilon es una variable aleatoria asociada al error.

Supuestos del modelo:

  • E[\varepsilon] = 0. Debido a que E[Y|x_1,\dots,x_k] = \beta_0 + \beta_1 x_1 + \dots + \beta_k x_k, entonces \beta_i deben ser constantes, y por lo tanto E[\varepsilon] = 0.

  • Var[\varepsilon] = \sigma^2. Debido a que Var[Y] = \sigma^2_Y = \sigma^2, entonces no hay variabilidad aportada por X, y por lo tanto Var[\varepsilon] = \sigma^2.

  • \varepsilon \sim \mathcal{N}(0, \sigma^2), que necesitamos para la parte inferencial (distribuciones muestrales).

14.11.2 Regresión para polinomios y funciones linealizables

  • Modelo cuadrático:

    Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \varepsilon

    Tome X_1 = X y X_2 = X^2.

  • Modelo cúbico:

    Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \beta_3 X^3 + \varepsilon

    Tome X_1 = X, X_2 = X^2 y X_3 = X^3.

  • Modelo polinómico de orden q:

    Y = \beta_0 + \beta_1 X + \dots + \beta_q X^q + \varepsilon

    Tome X_1 = X, \dots, y X_q = X^q.

  • Modelo inverso:

    Y = \beta_0 + \frac{\beta_1}{X} + \varepsilon

    Tome X_1 = 1/X.

  • Modelo logarítmico:

    Y = \beta_0 + \beta_1 \log(X) + \varepsilon

    Tome X_1 = \log(X).

  • Modelo de segundo orden completo:

    Y = \beta_0 + \beta_1 X_A + \beta_2 X_B + \beta_3 X_A X_B + \beta_4 X_A^2 + \beta_5 X_B^2 + \varepsilon

    Tome X_1 = X_A, X_2 = X_B, X_3 = X_A X_B, X_4 = X_A^2 y X_5 = X_B^2.

  • Modelo de potencia:

    Y = \beta_0 X^{\beta_1} \varepsilon

    Transforme a \ln(Y) = \ln(\beta_0) + \beta_1 X + \ln(\varepsilon) y tome Y^* = \ln(Y) y \beta_0^* = \ln(\beta_0).

  • Modelo compuesto:

    Y = \beta_0 \beta_1^{X} \varepsilon

    Transforme a \ln(Y) = \ln(\beta_0) + \ln(\beta_1) X + \ln(\varepsilon).

  • Modelo exponencial general o de crecimiento:

    Y = e^{\beta_0 + \beta_1 X + \varepsilon}

    Transforme a \ln(Y) = \beta_0 + \beta_1 X + \varepsilon.

  • Modelo exponencial:

    Y = \beta_0 e^{\beta_1 X + \varepsilon}

    o

    Y = \beta_0 e^{\beta_1 X} \varepsilon

    Transforme a \ln(Y) = \ln(\beta_0) + \beta_1 X + \varepsilon o \ln(Y) = \ln(\beta_0) + \beta_1 X + \ln(\varepsilon).

  • Modelo de curva-s:

    Y = e^{\beta_0 + \beta_1/X + \varepsilon}

    Transforme a \ln(Y) = \beta_0 + \beta_1 X_1 + \varepsilon, con X_1 = 1/X.

14.11.3 Otros tipos de modelo de regresión

  • Regresión logística: Modelo no lineal de respuesta binaria, es decir la variable respuesta Y tendría una distribución Bernoulli de parámetro p y,

    p = \frac{1}{1 + e^{-\left(\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k\right)}}

  • Modelos lineales generalizados: La variable respuesta tiene distribución perteneciente a la familia exponencial (Binomial, Poisson, Binomial Negativa, Normal, Gamma, etc.).

  • Modelos mixtos (una parte fija \mathbf{X} y una parte aleatoria \mathbf{Z}), modelos no paramétricos (sin suponer una distribución), modelos multivariados (la respuesta es un vector de variables), modelos con variables explicativas correlacionadas (por ejemplo, modelos para series de tiempo), modelos jerárquicos, modelos aditivos, etc.

14.11.4 Machine learning y aprendizaje supervisado

El aprendizaje supervisado es una de las ramas principales del machine learning (aprendizaje de máquinas / aprendizaje automático / máquinas de aprendizaje) y se caracteriza por el uso de datos “etiquetados” (variable respuesta / target) para entrenar modelos capaces de realizar predicciones sobre nuevas observaciones (individuos / registros / realizaciones, instancias). En este enfoque, cada instancia del conjunto de datos está representada por un conjunto de características (variables explicativas / atributos / features), junto con la etiqueta o variable respuesta que indica el resultado deseado. El objetivo del modelo es “aprender” (estimar) una función que relacione las características de entrada con la salida esperada de manera generalizable.

Desde una perspectiva estadística, el aprendizaje supervisado puede entenderse como el problema de estimación de una función desconocida f, donde se asume que los datos provienen de una distribución conjunta p(X, Y). A partir de un conjunto de entrenamiento \{(x_i, y_i)\}_{i=1}^{n}, el modelo busca encontrar una función \hat{f} que minimice el error de predicción en datos futuros.

El aprendizaje supervisado se divide en dos grandes categorías:

  • Regresión, cuando la variable respuesta es continua y el objetivo es predecir valores numéricos.
  • Clasificación, cuando la variable respuesta es categórica y el objetivo es asignar cada observación a una de varias clases posibles.

El desempeño de un modelo de aprendizaje supervisado se evalúa utilizando métricas que dependen del tipo de problema. En regresión, se utilizan métricas como el error cuadrático medio (Mean Squared Error, MSE) o el error absoluto medio (Mean Absolute Error, MAE). En clasificación, se emplean métricas como la exactitud (accuracy), la matriz de confusión, la precisión (precision), la recuperación (recall) y la puntuación F1 (F1-score).

Un aspecto fundamental del aprendizaje supervisado es la generalización, es decir, la capacidad del modelo para hacer predicciones precisas en datos no observados. Para mejorar la generalización y evitar problemas como el sobreajuste (overfitting), se utilizan técnicas como la selección de características (feature selection), la extracción de características (feature extraction), la regularización y la validación cruzada (cross-validation).

El entrenamiento de modelos supervisados requiere definir una función de pérdida (loss function) que cuantifique el error entre las predicciones del modelo y los valores reales. Posteriormente, se emplean algoritmos de optimización para minimizar esta función de pérdida y ajustar los parámetros del modelo (los parámetros asociados a la función f).

Los modelos lineales constituyen una de las herramientas fundamentales en estadística y machine learning. Su importancia radica en su capacidad para modelar relaciones entre variables, permitiendo realizar inferencias, predicciones y entender patrones en los datos. A pesar de su aparente simplicidad, los modelos lineales son una piedra angular en muchas aplicaciones.

Desde la estadística, los modelos lineales permiten inferir relaciones entre una variable respuesta (target) y un conjunto de variables explicativas (atributos / características / features), mientras que en machine learning, estos modelos se utilizan principalmente para tareas de predicción y optimización del desempeño en datos nuevos. En ambos enfoques, los modelos lineales suelen proporcionar un alto nivel de interpretabilidad y de eficiencia computacional, lo que los hace una opción fundamental en muchos contextos.

El término “lineal” en este caso se refiere a la relación matemática entre la variable de respuesta y las variables explicativas, que se expresa como una combinación lineal de los parámetros desconocidos. No obstante, esto no implica que los datos deban exhibir un comportamiento estrictamente lineal, sino que la estructura del modelo debe ser lineal en los parámetros. Esta característica permite una interpretación clara de los coeficientes y facilita la estimación mediante métodos eficientes como los mínimos cuadrados y la máxima verosimilitud.

14.11.4.1 Redes neuronales y perceptrón multicapa

Las redes neuronales artificiales (artificial neural networks, ANN) son modelos computacionales inspirados en el funcionamiento del cerebro humano. Están compuestas por unidades básicas llamadas neuronas, organizadas en capas interconectadas que transforman entradas en salidas mediante operaciones matemáticas. Su capacidad para modelar relaciones complejas en los datos las convierte en herramientas fundamentales en el contexto del aprendizaje automático (machine learning, ML).

El modelo más básico de red neuronal es el perceptrón (perceptron). Un perceptrón consiste en una o más entradas (input), una función que calcula una combinación lineal de las entradas y una función de activación básica (una función escalón, step function) que transforma los valores en la salida (output). El perceptrón, bajo su definición original, permitía realizar tareas de clasificación linealmente separable, pero era limitado para problemas más complejos.

Una perceptron multicapa (multilayer perceptron, MLP) extiende el perceptrón original, añadiendo capas ocultas con múltiples neuronas y otras funciones de activación (como sigmoide o ReLU), permitiendo representar relaciones no lineales. Estas redes constituyen la base conceptual del denominado aprendizaje profundo (Deep Learning) y de arquitecturas de modelos de redes neuronales más avanzados que hacen parte hoy en día de los denominados modelos de inteligencia artificial.

Un modelo de regresión lineal múltiple y un perceptrón simple (sin capas ocultas) con función de activación lineal son matemáticamente equivalentes. Ambos modelos calculan una combinación lineal de las variables explicativas, donde los coeficientes estimados en la regresión corresponden a los pesos del perceptrón y el intercepto equivale al sesgo (bias). En este escenario, la única diferencia es terminológica y de contexto de aplicación, ya que el procedimiento matemático subyacente es el mismo.

Cuando el perceptrón simple incorpora una función de activación no lineal en la salida, deja de ser equivalente a la regresión lineal múltiple. Por ejemplo, si se emplea la función sigmoide, el modelo pasa a ser análogo a una regresión logística, mientras que otras funciones de activación producen variantes relacionadas con modelos de clasificación no lineales. En este caso, la capacidad del modelo ya no se limita a relaciones estrictamente lineales, sino que puede abordar problemas de decisión con fronteras no lineales.

En el caso de un perceptrón multicapa con varias capas ocultas, si todas las funciones de activación son lineales, la red sigue siendo en esencia una transformación lineal de las entradas. Esto se debe a que la composición de funciones lineales produce otra función lineal, por lo que el modelo resultante no supera en capacidad expresiva a la regresión lineal múltiple. La diferencia radica únicamente en la representación: los parámetros se distribuyen en varias matrices de pesos en lugar de concentrarse en un único vector de coeficientes, pero el resultado final describe la misma clase de funciones.

Solo cuando el perceptrón multicapa incorpora funciones de activación no lineales en las capas ocultas se obtiene un modelo con mayor poder de representación. En ese caso, la red deja de ser equivalente a la regresión lineal y adquiere la capacidad de capturar relaciones complejas y no lineales en los datos.

Te recomiendo revisar los videos de la serie sobre redes neuronales de 3Blue1Brown, disponibles en https://www.3blue1brown.com/topics/neural-networks . En ellos se explica de manera muy visual y sencilla qué es una red neuronal, cómo puede aprender a reconocer patrones (por ejemplo, dígitos escritos a mano) y qué papel cumplen sus distintos componentes. También se muestran las ideas centrales de cómo una red “aprende”, es decir, como el descenso por gradiente y el algoritmo de retropropagación permiten ajustar los pesos y sesgos del modelo de red neuronal para mejorar sus predicciones. Más adelante, la serie introduce temas actuales como los modelos de lenguaje (Large Language Models, LLMs) y la arquitectura de los transformers, que son la base de las herramientas de inteligencia artificial más usadas hoy en día, por ejemplo, GPT-3 en adelante y competidores.

Actividad autónoma independiente (después de las clases correspondientes a esta sección)
  • No olvides seleccionar y resolver ejercicios de un libro acerca de lo visto en esta sección (preferiblemente que tengan respuesta). Por ejemplo, selecciona ejercicios del capítulo 11 (sin las secciones 11.6, 11.9 y 11.12) del libro de Walpole o del capítulo 14 (sin las secciones 14.6 y 14.9) del libro de Anderson.