• Presentación
• Objetivo de la clase
• Logística (Horario, plan analítico, calificaciones, herramientas, textos de referencia, etc.)
• Presentaciones
• ¿Qué es NLP? ¿Por qué aprenderlo?
• Taller: Instalación de Python (Anaconda), control de versiones con GitHub, cuenta de desarrollador en Twitter.
👋 ¡Hola! Soy Viviana Márquez
🎓 MSc. Ciencia de Datos de la Universidad de San Francisco
🎓 BSc. Matemáticas de la Konrad Lorenz
🎓 Técnica en Comunicación Social
Actualmente: Científica de Datos para HBO Latin America
*Antes*: Royal Caribbean Cruises, Zimmerman Advertising, TruSTAR Technology.
🤖 Temas de interes: NLP, visualización de datos, creación de bots. Combinatoria y comunicación científica.
🎯 Objetivo:
• Adquirir los conocimientos y las herramientas más utilizadas en la industria en el área del Procesamiento de Lenguaje Natural (NLP). (¡Entrevistas!)
• Ganar experiencia en la implementación y evaluación de diferentes aplicaciones de NLP y aplicar métodos de aprendizaje automático para este proceso en casos de la vida real. (¡Portafolio!)
• Entender las mejores prácticas, oportunidades y el mapa de ruta de la NLP desde la perspectiva de un líder de negocios y productos.
🗓️ Horario:
Jueves 6:15 p.m. - 9:30 p.m. (15 minutos de descanso a las 7:45 p.m.)
Primer bloque: Explicación holística y práctica.
Segundo bloque: Taller
Otra información importante:
• Todas las clases serán grabadas
• La asistencia es obligatoria (máximo 15% de inasistencias)
• Los materiales serán subidos al aula virtual
• Los talleres deben ser entregados al aula virtual, NO se permiten entregas tarde
• Pueden usar el equipo de Teams para hacer preguntas
• 🙈 $+1$ punto de en talleres para quién encuentre errores de ortografía
Nosotros NO le hablamos a los asistentes virtuales en lenguaje de programación, le hablamos en nuestro idioma natural-- el idioma en el que todos nos comunicamos.
Los computadores solo pueden procesar datos binarios-- 0s y 1s.
¿Cómo hacemos para que las máquinas nos entiendan? Ahí es donde el Procesamiento de Lenguaje Natural (NLP) entra en acción.
• Existen más de 6.500 idiomas en el mundo.
• 79% de los datos producidos son no estructurados --> La gran mayoría son textos.
• Se están generando millones de datos en este momento: WhatsApp, Twitter, YouTube, etc.
Los idiomas son una forma de representar información y nosotros los humanos interpretamos esta información.
• Es el área de las ciencias de la computación (inteligencia artificial) que se encarga de tratar con los lenguajes humanos y derivar información valiosa de ellos.
• Existen docenas de métodos y estrategias para resolver un problema dado.
El objetivo de esta tarea es aprender la probabilidad de que una secuencia de palabras aparezcan en un lenguaje.
Útil en:
La tarea más popular de NLP
Análisis de sentimiento, basura o no, correo principal, detección de plagio, detección de bots.
Análisis de emojis:
¿El pollo está listo para ser comido o está listo para que le den de comer?
Empalagarse, estrenar, consuegro, antier
Taller # 1: Configuración inicial
Fecha de entrega: Febrero 25, 2021. (Antes del inicio de la próxima clase)
⚠️ (Nota: Google Colab & Codeshare)
Instalar versión Anaconda --- Python 3.x
https://www.anaconda.com/products/individual
Aula virtual:
Anaconda Power Shell
y tomar pantallazo del comando: python --version
jupyter notebook
De preferencia, usar el email institucional (.edu)
Aula virtual:
https://developer.twitter.com/en/apply-for-access
Aula virtual: