6  Introducción

El aprendizaje supervisado es una de las ramas principales del machine learning (aprendizaje de máquinas / aprendizaje automático / máquinas de aprendizaje) y se caracteriza por el uso de datos “etiquetados” (variable respuesta / target) para entrenar modelos capaces de realizar predicciones sobre nuevas observaciones (individuos / registros / realizaciones, instancias). En este enfoque, cada instancia del conjunto de datos está representada por un conjunto de características (variables explicativas / atributos / features), junto con la etiqueta o variable respuesta que indica el resultado deseado. El objetivo del modelo es “aprender” (estimar) una función que relacione las características de entrada con la salida esperada de manera generalizable.

Desde una perspectiva estadística, el aprendizaje supervisado puede entenderse como el problema de estimación de una función desconocida f, donde se asume que los datos provienen de una distribución conjunta p(X, Y). A partir de un conjunto de entrenamiento \{(x_i, y_i)\}_{i=1}^{n}, el modelo busca encontrar una función \hat{f} que minimice el error de predicción en datos futuros.

El aprendizaje supervisado se divide en dos grandes categorías:

El desempeño de un modelo de aprendizaje supervisado se evalúa utilizando métricas que dependen del tipo de problema. En regresión, se utilizan métricas como el error cuadrático medio (Mean Squared Error, MSE) o el error absoluto medio (Mean Absolute Error, MAE). En clasificación, se emplean métricas como la exactitud (accuracy), la matriz de confusión, la precisión (precision), la recuperación (recall) y la puntuación F1 (F1-score).

Un aspecto fundamental del aprendizaje supervisado es la generalización, es decir, la capacidad del modelo para hacer predicciones precisas en datos no observados. Para mejorar la generalización y evitar problemas como el sobreajuste (overfitting), se utilizan técnicas como la selección de características (feature selection), la extracción de características (feature extraction), la regularización y la validación cruzada (cross-validation).

El entrenamiento de modelos supervisados requiere definir una función de pérdida (loss function) que cuantifique el error entre las predicciones del modelo y los valores reales. Posteriormente, se emplean algoritmos de optimización para minimizar esta función de pérdida y ajustar los parámetros del modelo (los parámetros asociados a la función f).