Как обойти сайт на python?

Question

Сергей Павлов @Pavlov_dog

Как обойти сайт на python?

Нужно обойти сайт в котором страницы расположены по принципу список категорий -> категория -> целевая страница. Целевая страница в конце парсится силами Grab. Нужно распарсить все страницы, вложенные в категории. Как решить задачу желательно силами python?

Вопрос задан более трёх лет назад
3130 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 3

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- 3 часа назад
- 46 просмотров
2

ответа
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- 6 часов назад
- 50 просмотров
0

ответов
Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- 8 часов назад
- 41 просмотр
0

ответов
Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium?
- 1 подписчик
- 15 часов назад
- 50 просмотров
2

ответа
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- вчера
- 166 просмотров
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- вчера
- 27 просмотров
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- вчера
- 36 просмотров
0

ответов
Веб-разработка

+1 ещё

Простой
Как работает спам сообщений в ютубе?
- 1 подписчик
- вчера
- 105 просмотров
2

ответа
Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- вчера
- 138 просмотров
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- вчера
- 94 просмотра
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Перенести сайт на Друпал на новый хостинг

25 апр. 2024, в 15:51

3000 руб./за проект

Разработка игры нарды

25 апр. 2024, в 15:31

70000 руб./за проект

Верстка мобильной версии на SvelteKit [FIGMA]

25 апр. 2024, в 15:26

15000 руб./за проект

Answer 1 · 2014-07-07 21:40:00

Парсите URL категорий (используйте, к примеру, xpath), переходите по ним и парсите необходимые ссылки на страницу. Потом переходите на страницу и выбираете данные (RegExp, XPath или что-то еще).

Не знаю, как это делается в Grab, поэтому рассказал вам алгоритм. Натягиваете код на алгоритм и вуаля!

Answer 2 · 2014-07-07 22:34:52

eremeevdev @eremeevdev

scrapy тоже не плохой фреймворк для парсинга сайтов

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2014-07-10 16:35:46

Можно использовать модуль Grab:Spider следующим образом:
1. Создать начальное задание на парсинг страцицы с категориями, которое находит ссылки на страницы категорий.
2. Для каждой найденной ссылки создать задания для категорий, которое ищет ссылки на целевые страницы.
3. Для каждой найденной на предыдущем этапе ссылки создать задания, которые содержат логику парсинга целевых страниц.
Пример можно посмотреть в документации. Также есть статья на хабре.

Как обойти сайт на python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт