Raspado de banda con Python usando s贸lo 9 l铆neas de c贸digo

Raspar es extraer datos de sitios web. En este art铆culo, le mostrar茅 c贸mo raspar enlaces de un sitio de comercio electr贸nico de prueba con Python 3. Prerrequisitos Si a煤n no lo ha hecho, instale beautifulsoup4 y peticiones.

pip install beautifulsoup4
pip install requests

隆Empieza a raspar!

solicitudes de importaci贸n
de bs4 import BeautifulSoup
resultado = requests.get("https://www.webscraper.io/test-sites/e-commerce/allinone")
sopa = BeautifulSoup(result.content)
enlaces = sopa.find_all("a", "title")
datos = {}
para enlace en enlaces:
    title = link.string
    data[title] = link.attrs[href]

Aqu铆 est谩 el fragmento completo que puede copiar y pegar directamente en su terminal, editor de texto favorito o cuaderno de jupyter. para comprobar si lo hizo correctamente, la salida de datos debe ser algo similar a:

{MSI GL62VR 7RFX: /test-sites/e-commerce/allinone/product/326,
Dell Vostro 15....": "/test-sites/e-commerce/allinone/product/283",
Dell Inspiron 17....: /test-sites/e-commerce/allinone/product/296}}

>

Eso es

El Web scraping es genial y puede ahorrarle mucho tiempo cuando desee extraer datos r谩pidamente de los sitios web. Los ejemplos anteriores se utilizan para que pueda empezar r谩pidamente. Por supuesto que hay m谩s de lo que mostr茅 arriba, por ejemplo (rastreo, paginaci贸n, ver el DOM, autenticaci贸n, cookies, etc.). Esto es s贸lo la punta del iceberg . 隆Gracias por leer! Publicado originalmente en The Startup.

Etiquetas

PythonScrapingTechStartupProductividadAutomatizaci贸nCodificaci贸nCodificaci贸nLas 煤ltimas historias t茅cnicas

Comentarios

Contin煤e la discusi贸n