Agrupación de Textos

NLP - Analítica Estratégica de Datos


Fundación Universitaria Konrad Lorenz
Docente: Viviana Márquez vivianam.penama@konradlorenz.edu.co
Clase #9: April 22, 2020

Retroalimentación plan proyecto final & taller 7

⌛ En la clase anterior

Flujo de datos en un proyecto de NLP (pipeline)


Modelos de clasificación en el contexto de Machine Learning


🤔 ¿Y si no tenemos etiquetas?

🚀 Hoy veremos...

🤖 Métodos de Agrupación

Es la forma más común de aprendizaje no supervisado

Datos

• Muestras de entrenamiento $\{ x_1, \ldots, x_n\} \in \mathbb{R}^{n}$

• No necesitamos (tenemos) etiquetas $y_i$

Primera (?) aplicación de agrupación


• En la década de 1850, un médico de Londres llamado John Snow, graficó la ubicación de las muertes por cólera en un mapa.

• Las ubicaciones mostraron que los casos estaban agrupados cerca ciertas intersecciones donde habían pozos contaminados -- así, exponiendo tanto el problema como la solución.


Fuente: Nina Mishra HP Labs

🤖 Métodos de Agrupación


Objetivo: Agrupar ejemplares en clases de objetos similares-- "cúmulos/clusters"

¿Cuándo usarlos? Cuando no sabemos qué estamos buscando

... pero, ¡cuidado, se puede convertir en galimatías!

El conjuto de datos debe tener:
- Alta similaridad intra-clases
- Baja similaridad inter-clases

🔎 K-means en el mundo de Machine Learning


🔎 K-means en el mundo de Machine Learning


K-means

(También conocido como K-medias)


Modelo de Machine Learning NO supervisado de agrupación por partición



K-means un algoritmo iterativo cuyo objetivo es particionar un conjunto de $N$ observaciones
en $K$ grupos en el que cada observación pertenece al grupo cuyo valor medio es más cercano.

K-means --- Pasos

1. Inicializar

A.   Elegir un número K de cúmulos

B.   Escoger aleatoriamente K puntos como centroides

2. Repetir

A.   Los K cúmulos se crean asociando cada observación con la media más cercana

B.   El nuevo centroide de cada uno de los K cúmulos es la media de sus observaciones

K-means --- Pasos

3. Parar

A.   Repetir pasos 1 y 2

B.   El algoritmo acaba cuando ya no hay cambio en los centroides de los cúmulos, las observaciones de los cúmulos siguen siendo las mismas, o el máximo número de iteraciones es alcanzado

Referencias:

👮‍♀️ Punto de control


¿Cuál es el número de $K$?

¿Qué está pasando en cada paso?

👩‍💻 Manos a la obra

Paso 1: Cargar los datos

👩‍💻 Manos a la obra

Paso 2: Feature Engineering

👩‍💻 Manos a la obra

Paso 2: Entrenar el modelo

Pero primero tenemos que escoger $K$

¿Cómo escoger $K$?

Es importante escoger un buen número para K


¿Cómo escoger K?

¿Cuántos cúmulos hay aquí?


¿Cómo escoger K?

¿Cuántos cúmulos hay aquí?

¿Dos?


¿Cómo escoger K?

¿Cuántos cúmulos hay aquí?

¿Ocho?


👮‍♀️ Punto de control


• ¿Cuál es valor mínimo posible para K?

• ¿Cuál es valor máximo para K?

👩‍💻 Manos a la obra

Paso 2: Entrenar el modelo

Escoger $K$ usando el método del codo

👩‍💻 Manos a la obra

Paso 3: Hacer predicciones

🙁 ¿Qué puede salir mal?

Desventajas de K-means


• Se tiene que escoger $K$ con antelación (más de eso adelante)

• Es intensivo computacionalmente

• Cada observación pertenece a un sólo cúmulo

• Sensible a las observaciones atípicas

• No puede modelar relaciones complejas

🙁 ¿Qué puede salir mal?

Cuando NO usar K-means


🙁 ¿Qué puede salir mal?

Cuando NO usar K-means


🙁 ¿Qué puede salir mal?

Cuando NO usar K-means


🤓 Recapitulando



• Los modelos de agrupación son técnicas no supervisadas de Machine Learning que buscan extraer la estructura de los datos al juntar las observaciones similares.

• K-means es el modelo de agrupación más usado

• El algoritmo es iterativo y reasigna los centroides hasta cuando ya no haya cambio en los grupos

• Como todo modelo, es importante hacer una buena selección de variables dependientes y usar conocimento del tema para evaluar e interpretar el modelo.

• Hay que considerar las limitaciones del modelo a la hora de escoger trabajar o no con él.

🤔 Más algoritmos de agrupación

Lectura adicional: Documentación, Más ejemplos

¡Tiempo de taller!

Taller #8: K-Means

Fecha de entrega: Abril 29, 2021. (Antes del inicio de la próxima clase)

Próxima clase: Modelado de temas