@hardwellZero

Как спарсить несколько страниц?

Здравствуйте.
Скажите пожалуйста, каким образом я могу получить определенные данные с html страницы (зная селектор элемента), но имея при этом 100+ страниц.(аля выдача гугла).
  • Вопрос задан
  • 1926 просмотров
Пригласить эксперта
Ответы на вопрос 4
@lPolar
data scientist
ИМХО, urllib/requests/bs4 - прошлый век.
Берите grab, у него отличная русская документация и удобный интерфейс.
Ответ написан
@deliro
requests + BeautifulSoup
Ответ написан
urllib2 + BeautifulSoup

Алгоритм таков (выдача гугла), такой себе псевдокод:
смотрим страницу выдачи
берем все 10 урлов сайтов
перебираем их все
открывая каждый и беря нужную инфу с помощью BeautifulSoup
смотрим адрес следующей страницы гугла
подставляем её в начало программы

И так продолжаем или до конца всех найденных страниц, или указывайте нужную глубину просмотра.
Ответ написан
skipirich
@skipirich
проходил мимо
Для того чтобы перебрать эту матрешку нужна рекурсия.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы