@Wade2k

Создание робота-паука для сбора данных — где искать информацию?

Сейчас встала задача разработать паука для сбора данных с сайтов.
Нужно обходить сайты, извлекать данные и складывать в БД.

Есть ли готовые решения и фреймворки, чтобы не изобретать велосипед?
Как решали подобные задачи?
  • Вопрос задан
  • 722 просмотра
Решения вопроса 1
Если вам не претит python-way, то Flask + BeautifulSoup + SQLAlchemy

Книга посвященная вашему вопросу
Гайд по Flask на Хабре
Гайд по BeautifulSoup на русском
Гайд по SQLAlchemy на русском

Мне хватило импортировать bs4 и забирать данные прямо в views.py
from flask import render_template
from urllib.request import urlopen 
from urllib.error import HTTPError
from bs4 import BeautifulSoup

@app.route("/links/")
def parse():
	try:
		html = urlopen("http://www.site.ru/").read()
	except HTTPError as e:
		print(e)

  soup = BeautifulSoup(html, 'lxml');
  links = soup.findAll('a')

  return render_template('template.html', links=links)

Приправьте алхимией для БД и почти готов RESTful микрсервис, либо достройте вокруг этого целое веб-приложение, Flask позволяет.
Ответ написан
Пригласить эксперта
Ответы на вопрос 2
Antonchik
@Antonchik
Программирую на HTML
Про пирсинг почитайте, и про библиотеки которыми удобно разбирать html
Ответ написан
lxsmkv
@lxsmkv
Test automation engineer
само это занятие называется web scraping или web harvesting, по этой теме инфы очень много в интернете.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы