Taller de extracción automatizada de datos de páginas web
Web scraping es una técnica que emplea diferentes tecnologías para extraer datos o información de una página web. Se usa para recoger datos sin estructura y convertirlos en datos estructurados para posteriormente ser tratados en bases de datos u hojas de cálculo. El taller es una aproximación práctica al scraping con el objetivo de permitir a los asistentes el tratamiento de información útil para sus propios proyectos.
I Edición: 6-7 febrero 2018, organizado por Montera34 e Hirikilabs en Tabakalera (Donostia/San Sebastián)
- Enlace a la convocatoria (Hirikilabs)
- Enlace a la convocatoria (Montera34)
- Wiki de la sesión
- Presentación en PDF
II Edición: 11-12 de mayo de 2018, organizado por AEDI en WorkInCompany (Sevilla).
- Tener python instalado
- Tener instalado algún editor de código (como VSCode)
Los ejercicios están preparados para ejecutarse con Python3, pero con algunos cambios puede ejecutarse con Python2
- Descarga python pinchando aqui
- Ejecuta el archivo descargado y sigue las instrucciones.
- Si te da error, intenta seguir este tutorial
- Confirmar tecleando en consola CMD:
python -version
- Sigue estas instrucciones
- Si te da error, intenta añadir al PATH la localización de pip. Prueba a meter el full path:
C:\Python39\Scripts\pip
- Confirmar tecleando en la consola de python:
pip import
Windows Vista: Para que python funcione en Windows Vista tenemos que añadirlo al “path” de manera que al escribir “python” en la linea de comandos (CMD) lo reconozca. Añadir a PATH significa decirle al ordenador dónde tiene que buscar el progama python.
- Teclear:
pip install nombre_del_modulo
- Si da error, tecleando
C:\Python39\Scripts\pip install nombre_del_modulo
Windows 10: para instalar un paquete, usar
py -m pip install nombre_del_modulo
- Descarga python pinchando en este enlace
- Ejecuta el archivo descargado y sigue las instrucciones.
- Para instalar librerías o módulos de Python, que añaden funcionalidades adicionales, se puede user pip desde la línea de comandos del sistema operativo, no desde la consola de Python:
pip install nombre-modulo
- Abre una terminal
- Comprueba si ya tienes instalado python tecleando:
python -version
- Si no lo tienes instalado teclea:
sudo apt-get install python
- Abre una terminal
- Entra en la consola de python tecleando:
python
- Comprueba que tienes pip instalado:
pip import
- Si no lo tienes, ejecuta:
sudo apt-get install python-pip
-
Editores de código
-
Módulos de Python
-
Otras herramientas
-
Introducción a HTML
-
Otras guías y tutoriales de interés