5 Elementos básicos
El aprendizaje no supervisado es una rama fundamental del machine learning (aprendizaje de máquinas / aprendizaje automático) que se distingue por trabajar con datos sin etiquetar. A diferencia del aprendizaje supervisado, no se dispone de una variable respuesta o target que guíe el entrenamiento del modelo. En este contexto, el objetivo principal es descubrir patrones, estructuras y relaciones ocultas en los datos.
Desde una perspectiva estadística, el aprendizaje no supervisado se puede entender como el problema de identificar patrones o distribuciones en los datos a partir de un conjunto de observaciones (individuos / registros / realizaciones, instancias) X = \{x_i\}_{i=1}^{n}. El modelo busca encontrar estructuras como grupos (clusters), distribuciones de probabilidad o reducciones de dimensión que permitan representar los datos de una manera más sencilla o informativa.
El aprendizaje no supervisado abarca diversas tareas, entre las que destacan:
- Reducción de dimensionalidad: Se busca transformar los datos a un espacio de menor dimensión, conservando la información relevante y eliminando el ruido o la redundancia. Esto facilita la visualización y el procesamiento de datos de alta dimensión.
- Agrupamiento (clustering): El objetivo es particionar el conjunto de datos en grupos o clusters de tal manera que las observaciones dentro de un mismo grupo sean más similares entre sí que las observaciones de otros grupos.
Un desafío clave del aprendizaje no supervisado es la interpretación de los resultados, ya que no existe una “respuesta correcta” (variable respuesta / target) contra la cual validar los modelos. Las técnicas de visualización y análisis exploratorio son fundamentales para interpretar los patrones descubiertos y validar la calidad de los modelos.
5.1 Reducción de la dimensión lineal, agrupamiento básico, y EDM
La estadística descriptiva multivariada (EDM) se puede ver como un primer acercamiento al aprendizaje no supervisado en la ciencia de datos, ya que proporciona herramientas clave para explorar, entender y simplificar los datos antes de aplicar métodos más complejos.
A través de técnicas derivadas del análisis de componentes principales generalizado se facilita la comprensión de las estructuras subyacentes de los datos, permitiendo identificar patrones y relaciones que podrían ser invisibles en espacios de alta dimensionalidad. Este enfoque es esencial en ciencia de datos, donde los conjuntos de datos tienden a ser complejos y multivariantes, y la reducción de la dimensión ayuda a mejorar la eficiencia computacional y la interpretación de los modelos.
Además, la estadística descriptiva multivariada no solo se limita a la reducción de la dimensión, sino que también integra el análisis de agrupamiento, que permite identificar y caracterizar grupos dentro de los datos. Métodos como el k-means y el agrupamiento jerárquico aglomerativo de Ward, al combinarse, proporcionan una sinergia poderosa para segmentar los datos y descubrir estructuras ocultas, lo cual es esencial tanto en la ciencia de datos como en el aprendizaje automático.
La estadística descriptiva multivariada es esencial en áreas como exploratory data analysis (EDA), data mining, pattern recognition, knowledge discovery y el aprendizaje no supervisado, porque permite analizar y resumir la interrelación entre múltiples variables de forma simultánea. Su importancia radica en que facilita la comprensión de la estructura y las dependencias de los datos, proporcionando una visión general que ayuda a identificar patrones, detectar anomalías y descubrir relaciones ocultas. En todos estos campos, la estadística descriptiva multivariada ofrece un marco inicial, el cual es crucial para aplicar técnicas más avanzadas de modelado o análisis.
5.1.1 Material de consulta
Husson, F., Lê, S., & Pagès, J. (2017). Exploratory Multivariate Analysis by Example Using R (2nd ed.). Chapman & Hall/CRC.
Pardo, C. E. (2020). Estadística descriptiva multivariada. Universidad Nacional de Colombia. https://repositorio.unal.edu.co/handle/unal/79914
- Complementar con: https://cjtorresj.quarto.pub/edm/
Pagès, J. (2014). Multiple Factor Analysis by Example Using R. Chapman & Hall/CRC.