7  Modelos lineales

Los modelos lineales constituyen una de las herramientas fundamentales en estadística y machine learning. Su importancia radica en su capacidad para modelar relaciones entre variables, permitiendo realizar inferencias, predicciones y entender patrones en los datos. A pesar de su aparente simplicidad, los modelos lineales son una piedra angular en muchas aplicaciones.

Desde la estadística, los modelos lineales permiten inferir relaciones entre una variable respuesta (target) y un conjunto de variables explicativas (atributos / características / features), mientras que en machine learning, estos modelos se utilizan principalmente para tareas de predicción y optimización del desempeño en datos nuevos. En ambos enfoques, los modelos lineales suelen proporcionar un alto nivel de interpretabilidad y de eficiencia computacional, lo que los hace una opción fundamental en muchos contextos.

El término “lineal” en este caso se refiere a la relación matemática entre la variable de respuesta y las variables explicativas, que se expresa como una combinación lineal de los parámetros desconocidos. No obstante, esto no implica que los datos deban exhibir un comportamiento estrictamente lineal, sino que la estructura del modelo debe ser lineal en los parámetros. Esta característica permite una interpretación clara de los coeficientes y facilita la estimación mediante métodos eficientes como los mínimos cuadrados y la máxima verosimilitud.

En esta sección, exploraremos los modelos de regresión lineal simple y múltiple, introduciremos los modelos lineales generalizados y discutiremos su extensión a problemas de clasificación mediante la regresión logística. A lo largo del desarrollo, complementaremos los conceptos e ideas base con implementaciones computacionales en Python, utilizando herramientas como scikit-learn en el entorno de Google Colaboratory.

7.1 Problemas de regresión

Los problemas de regresión surgen cuando el objetivo es modelar y predecir una variable continua a partir de un conjunto de variables explicativas. En términos generales, estos modelos buscan capturar la relación entre una variable de respuesta Y y un conjunto de predictores X_1, X_2, \dots, X_p, con el fin de comprender su influencia y realizar “predicciones” para nuevas observaciones.

Desde el enfoque estadístico, la regresión se centra en modelar la media condicional de Y dado X, permitiendo la inferencia sobre los coeficientes y la incertidumbre en las estimaciones. Desde machine learning, la regresión se entiende como una tarea de aprendizaje supervisado, donde el objetivo es minimizar la diferencia entre las predicciones y los valores reales.

El modelo de regresión lineal simple es el punto de partida en este contexto, donde la relación entre la variable respuesta y un único predictor se expresa mediante una ecuación lineal con un término de error aleatorio. A partir de este concepto, se extiende la regresión lineal múltiple, permitiendo la inclusión de múltiples predictores y proporcionando una herramienta más flexible para modelar fenómenos complejos.

En la práctica, la adecuación del modelo de regresión se evalúa mediante métricas como el error cuadrático medio (Mean Squared Error, MSE). Además, técnicas como la regularización (ridge y lasso) son esenciales en machine learning para mejorar la capacidad de generalización del modelo y evitar problemas como el sobreajuste (overfitting).

Cuadernos computacionales:

7.2 Problemas de clasificación

Los problemas de clasificación aparecen cuando la variable respuesta es categórica, es decir, cuando se desea asignar una observación (individuo / registro / realización, instancia) a una de varias categorías, clases o etiquetas posibles. A diferencia de la regresión, donde se predicen valores numéricos, en la clasificación el objetivo es estimar la probabilidad de pertenencia a cada clase y asignar la categoría más probable a una nueva observación.

Desde la estadística, los modelos de clasificación pueden interpretarse como una extensión de los modelos lineales a variables respuesta discretas, a menudo utilizando modelos como la regresión logística o los modelos lineales generalizados (Generalized Linear Models, GLMs). En machine learning, la clasificación se entiende como una tarea supervisada donde se busca minimizar funciones de pérdida específicas para datos no continuos. En relación a lo anterior, la evaluación de modelos de clasificación requiere métricas distintas a las usadas en regresión, debido a que las predicciones son de naturaleza categórica.

Uno de los modelos más utilizados para resolver problemas de clasificación en dos categorías (binaria) es la regresión logística, que extiende la idea de los modelos lineales, al relacionar una combinación lineal de los predictores con las probabilidades de pertenencia a una categoría, mediante la función sigmoide. Para casos con más de dos categorías, se pueden emplear estrategias como la regresión logística multinomial u otros modelos lineales generalizados.

Cuadernos computacionales:

7.3 Enlace scikit-learn