Raspado de banda con Python usando sólo 9 líneas de código

Raspar es extraer datos de sitios web. En este artículo, le mostraré cómo raspar enlaces de un sitio de comercio electrónico de prueba con Python 3. Prerrequisitos Si aún no lo ha hecho, instale beautifulsoup4 y peticiones.

pip install beautifulsoup4
pip install requests

¡Empieza a raspar!

solicitudes de importación
de bs4 import BeautifulSoup
resultado = requests.get("https://www.webscraper.io/test-sites/e-commerce/allinone")
sopa = BeautifulSoup(result.content)
enlaces = sopa.find_all("a", "title")
datos = {}
para enlace en enlaces:
    title = link.string
    data[title] = link.attrs[href]

Aquí está el fragmento completo que puede copiar y pegar directamente en su terminal, editor de texto favorito o cuaderno de jupyter. para comprobar si lo hizo correctamente, la salida de datos debe ser algo similar a:

{MSI GL62VR 7RFX: /test-sites/e-commerce/allinone/product/326,
Dell Vostro 15....": "/test-sites/e-commerce/allinone/product/283",
Dell Inspiron 17....: /test-sites/e-commerce/allinone/product/296}}

>

Eso es

El Web scraping es genial y puede ahorrarle mucho tiempo cuando desee extraer datos rápidamente de los sitios web. Los ejemplos anteriores se utilizan para que pueda empezar rápidamente. Por supuesto que hay más de lo que mostré arriba, por ejemplo (rastreo, paginación, ver el DOM, autenticación, cookies, etc.). Esto es sólo la punta del iceberg . ¡Gracias por leer! Publicado originalmente en The Startup.

Etiquetas

PythonScrapingTechStartupProductividadAutomatizaciónCodificaciónCodificaciónLas últimas historias técnicas

Comentarios

Continúe la discusión