Representación vectorial de textos (Parte 3)

NLP - Analítica Estratégica de Datos


Fundación Universitaria Konrad Lorenz
Docente: Viviana Márquez vivianam.penama@konradlorenz.edu.co
Clase #6: Marzo 25, 2021 (Sí, hoy sí hay clase 😜)

Retroalimentación taller 5

⌛ En clases anteriores

Medidas de similitud

Flujo de datos en un proyecto de NLP (pipeline)


Feature Engineering para NLP

Representación vectorial de textos

🚀 Hoy veremos...

Pasando de TF-IDF a Word2Vec

Word2Vec es frecuentemente llamado una representación distribuida, mientras que TF-IDF, BoW, etc. son llamados representaciones locales.

🛠️ Word2Vec

🧠 Los computadores son tan sólo una extención de nuestro cerebro

🤔 🤔 🤔

¿Qué es bardiwac?

🤔 🤔 🤔

🤔 ¿Qué es bardiwac?

🤔 ¿Qué es bardiwac?

Semántica distributiva

Semántica distributiva

🤔 ¿Qué otras palabras encajan en estos contextos?

Semántica distributiva

  1. Una botella de __ está en la mesa.
  2. A todo el mundo le gusta el __.
  3. No tomes __ antes de conducir.
  4. Hacemos __ con uvas.
1 2 3 4 ...
bardiwac 1 1 1 1
fuerte 0 0 1 0
aceite de motor 1 0 1 0
tortillas 0 1 0 0
vino 1 1 1 1

🛠️ ¿Cómo funciona Word2Vec?