Universidad Austral - Ciencia de datos.png

Limpieza de datos para el procesamiento de lenguaje natural

$0.00

Cantidad:

Añadir al carrito

Ver en la página oficial

Acerca de este curso

Adquiere experiencia en la materia de tu interés

Este curso forma parte de Programa especializado: Procesamiento de Lenguaje Natural

Cuando te inscribas en este curso, también te inscribirás en este programa especializado.

Aprende nuevos conceptos de la mano de expertos del sector
Adquiere conocimientos básicos sobre un tema o una herramienta
Desarrolla habilidades relevantes para el trabajo mediante proyectos prácticos
Obtén un certificado profesional para compartir

Este curso contiene 4 módulos

Este curso te brindará los conocimientos necesarios para la extracción, limpieza y preparación de distintas fuentes de datos para ser incluidos en un proceso de NLP.

Para realizar este curso es necesario contar con conocimientos de programación de nivel básico a medio, deseablemente conocimiento básico del lenguaje Python y es recomendable conocer el entorno de Jupyter Notebooks del entorno Anaconda.

Para desarrollar aplicaciones se va a utilizar Python 3.6 o superior. Alternativamente, se puede utilizar el entorno de Anaconda con la misma versión de Python.

Como editor de código, los ejemplos van a ser editados en el Notebook de Anaconda, pero el alumno puede utilizar cualquier editor de texto que reconozca notebooks de Anaconda.

Librerías que es necesario tener instaladas para realizar el curso: NLTK, Pandas, Scikit-learn y librerías de extracción de datos.

A primera vista

Institución: Universidad Austral

Duración: Cronograma flexible (Aprox. 12 horas)

Nivel: Nivel Principiante (Experiencia recomendada)

Idioma: Español

Instructores

Rafael Crescenzi (Universidad Austral)
Pablo Alejandro Albani (Universidad Austral)

Contenido

Web Scraping para Procesamiento de Lenguaje Natural

MÓDULO 1: 3 horas para finalizar

Este módulo te permitirá obtener los conocimientos necesarios para la construcción de un programa de extracción de datos de páginas Web basadas en HTML.

Incluye

5 videos

6 lecturas

3 cuestionarios

2 preguntas de discusión

1 complemento

HTML Parsing para Procesamiento de Lenguaje Natural

MÓDULO 2: 2 horas para finalizar

En este módulo se describen un conjunto de pasos necesarios para el pre procesar páginas HTML y extraer información de ellas. Además, se detallarán distintos tipos de aproximación al mismo.

Incluye

3 videos

4 lecturas

3 cuestionarios

1 pregunta de discusión

Técnicas avanzadas de Scraping

MÓDULO 3: 3 horas para finalizar

En este módulo se presentarán las técnicas avanzadas de scraping para extracción de datos de páginas HTML que utilizan diversas librerías de JavaScript para su construcción

Incluye

3 videos

4 lecturas

3 cuestionarios

1 pregunta de discusión

1 complemento

Técnicas de Manipulación de texto

MÓDULO 4: 3 horas para finalizar

Una vez estriado el texto de las páginas HTML, que es una fuente habitual de extracción de información, se pueden sumar distintas fuentes de tipos de datos, como ser PDF, DOC, XLS e imágenes. En este módulo se verán diversas técnicas que pueden servir para recolectar la información de ellas y unificarlas en un mismo conjunto de documentos.

Incluye

4 videos

4 lecturas

3 cuestionarios

1 pregunta de discusión

1 complemento