Как обойти сайт на python?

Нужно обойти сайт в котором страницы расположены по принципу список категорий -> категория -> целевая страница. Целевая страница в конце парсится силами Grab. Нужно распарсить все страницы, вложенные в категории. Как решить задачу желательно силами python?
  • Вопрос задан
  • 3130 просмотров
Пригласить эксперта
Ответы на вопрос 3
JRazor
@JRazor
Senior StarkOverFlow Programmer
Парсите URL категорий (используйте, к примеру, xpath), переходите по ним и парсите необходимые ссылки на страницу. Потом переходите на страницу и выбираете данные (RegExp, XPath или что-то еще).

Не знаю, как это делается в Grab, поэтому рассказал вам алгоритм. Натягиваете код на алгоритм и вуаля!
Ответ написан
Комментировать
eremeevdev
@eremeevdev
scrapy тоже не плохой фреймворк для парсинга сайтов
Ответ написан
@PoopZemli
Можно использовать модуль Grab:Spider следующим образом:
1. Создать начальное задание на парсинг страцицы с категориями, которое находит ссылки на страницы категорий.
2. Для каждой найденной ссылки создать задания для категорий, которое ищет ссылки на целевые страницы.
3. Для каждой найденной на предыдущем этапе ссылки создать задания, которые содержат логику парсинга целевых страниц.
Пример можно посмотреть в документации. Также есть статья на хабре.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы