¿Correo basura o no?

Clasificación de Textos (Parte 1)

NLP - Analítica Estratégica de Datos


Fundación Universitaria Konrad Lorenz
Docente: Viviana Márquez vivianam.penama@konradlorenz.edu.co
Clase #7: Abril 8, 2021

Retroalimentación taller 5 & 6

⌛ En clases anteriores

Flujo de datos en un proyecto de NLP (pipeline)


Flujo de datos en un proyecto de NLP (pipeline)


Flujo de datos en un proyecto de NLP (pipeline)


Flujo de datos en un proyecto de NLP (pipeline)


Flujo de datos en un proyecto de NLP (pipeline)


🚀 Hoy veremos...

🚀 Próxima clase...

🤖 Machine Learning

Primero hagamos un repaso de ML

• El Machine Learning (aprendizaje automático) se encarga de representar la estructura y generalizar el comportamiento de un conjunto de datos a través de un modelo.

💡 Representar: Extraer la estructura de un conjunto de datos.

💡 Generalizar: Hacer predicciones a partir de un conjunto de datos.

👠 ¿Modelo?

Sí, pero modelos matemáticos.

Estos se usan para describir un sistema (natural, físico, social, industrial, etc.) usando conceptos y lenguaje matemático.

👠 Elementos de un modelo en el contexto de ML

📝 Tipos de modelos en Machine Learning


¿Es un perro o es un muffin?

Dos preguntas:

👮‍♀️ Pop Quiz: ¿Supervisado o no?

👮‍♀️Pop Quiz: ¿Clasificación o regresión?


🤔 ¿Es correo basura o no?

🚀 Hoy vimos...

Modelos de clasificación

Se dividen en tres categorías:

Modelos de clasificación

Binarios: Clasificar dos clases

Modelos de clasificación

Multiclase: Clasificar más de dos clases

Modelos de clasificación

Multietiqueta: Cuando un documento puede tener más de una clase/etiqueta

¿En qué otros escenarios podemos tener un problema de multietiqueta?

Modelos de clasificación

Pasos para un modelo de clasificación:

  1. Adquirir datos etiquetados... (mala noticia)

Modelos de clasificación

Pasos para un modelo de clasificación:

  1. Adquirir datos etiquetados
  2. Feature Engineering (Pre-procesamiento, TF-IDF, etc...)

Modelos de clasificación

Pasos para un modelo de clasificación:

  1. Adquirir datos etiquetados
  2. Feature Engineering (Pre-procesamiento, TF-IDF, etc...)
  3. Dividir el conjunto de datos en dos:
    • Entrenamiento (training) y prueba (test)

Modelos de clasificación

Pasos para un modelo de clasificación:

  1. Adquirir datos etiquetados
  2. Feature Engineering (Pre-procesamiento, TF-IDF, etc...)
  3. Dividir el conjunto de datos en dos:
    • Entrenamiento (training) y prueba (test)
  4. Entrenar el modelo 🚀

Modelos de clasificación

Pasos para un modelo de clasificación:

  1. Adquirir datos etiquetados
  2. Feature Engineering (Pre-procesamiento, TF-IDF, etc...)
  3. Dividir el conjunto de datos en dos:
    • Entrenamiento (training) y prueba (test)
  4. Entrenar el modelo 🚀
  5. Obtener medidas de rendimiento en el conjunto de datos de prueba y mejorar modelo

Modelos de clasificación

Pasos para un modelo de clasificación:

  1. Adquirir datos etiquetados
  2. Feature Engineering (Pre-procesamiento, TF-IDF, etc...)
  3. Dividir el conjunto de datos en dos:
    • Entrenamiento (training) y prueba (test)
  4. Entrenar el modelo**
  5. Obtener medidas de rendimiento en el conjunto de datos de prueba y mejorar modelo
  6. Poner en producción

🚀 Hoy veremos...

Medidas de rendimiento para modelos de clasificación

Algunas de las medidas más populares son:

En tu modelo puedes lograr dos resultados:

Medidas de rendimiento para modelos de clasificación

Exactitud (accuracy): El número de predicciones correctas hechas por el modelo divididas por el número total de predicciones.

Medidas de rendimiento para modelos de clasificación


Problemas con la exactitud (accuracy). Necesita un conjunto de datos balanceados.

Medidas de rendimiento para modelos de clasificación

Sensibilidad (recall): La capacidad que tiene el modelo para encontrar todos los casos relevantes dentro de un conjunto de datos.

Medidas de rendimiento para modelos de clasificación

Precisión (precision): La capacidad que tiene el modelo para encontrar sólo los casos relevantes dentro de un conjunto de datos.

Medidas de rendimiento para modelos de clasificación

Valor-F1: Sirve para encontrar un balance óptimo entre precisión y sensibilidad.

En tu modelo puedes lograr dos resultados:

Esto quiere decir que al final tienes cuatro grupos:

Matriz de confusión

Herramienta que permite la visualización del desempeño de un modelo de clasificación

Matriz de confusión



🤓 Recapitulando: Hoy aprendímos...

¿Y para los textos? 🙀

🚀 Próxima clase...

¡Tiempo de taller!

Fecha de entrega: Abril 15, 2021. (Antes del inicio de la próxima clase)

Próxima clase: Clasificación de textos (Parte 2)