Raspar es extraer datos de sitios web. En este artículo, le mostraré cómo raspar enlaces de un sitio de comercio electrónico de prueba con Python 3. Prerrequisitos Si aún no lo ha hecho, instale beautifulsoup4 y peticiones.
pip install beautifulsoup4 pip install requests
¡Empieza a raspar!
solicitudes de importación de bs4 import BeautifulSoup resultado = requests.get("https://www.webscraper.io/test-sites/e-commerce/allinone") sopa = BeautifulSoup(result.content) enlaces = sopa.find_all("a", "title") datos = {} para enlace en enlaces: title = link.string data[title] = link.attrs[href]
Aquí está el fragmento completo que puede copiar y pegar directamente en su terminal, editor de texto favorito o cuaderno de jupyter. para comprobar si lo hizo correctamente, la salida de datos debe ser algo similar a:
{MSI GL62VR 7RFX: /test-sites/e-commerce/allinone/product/326, Dell Vostro 15....": "/test-sites/e-commerce/allinone/product/283", Dell Inspiron 17....: /test-sites/e-commerce/allinone/product/296}}
>
Eso es
El Web scraping es genial y puede ahorrarle mucho tiempo cuando desee extraer datos rápidamente de los sitios web. Los ejemplos anteriores se utilizan para que pueda empezar rápidamente. Por supuesto que hay más de lo que mostré arriba, por ejemplo (rastreo, paginación, ver el DOM, autenticación, cookies, etc.). Esto es sólo la punta del iceberg . ¡Gracias por leer! Publicado originalmente en The Startup.
Etiquetas
PythonScrapingTechStartupProductividadAutomatizaciónCodificaciónCodificaciónLas últimas historias técnicas
Comentarios
Continúe la discusión