Парсер-бот на python — как оптимизировать?

Question

paveltr @paveltr

Парсер-бот на python — как оптимизировать?

Привет!

Пишу парсеры на python+selenium+chromdriver для автоматического заказа товаров на сайтах типа mvideo, citilink и т.д.

Столкнулся с тем, что:
1) сайты перестают грузиться, когда парсер сделал довольно много заказов - возможно, банят автоматически сервисами типа botscanner
2) очень трудно сделать универсальный парсер для нескольких сайтов
3) малейшее изменение веб-разметки приводит к необходимости редактирования парсера (поменяли теги, переместили искомый элемент в новый блок и т.д.)

Мои вопросы:
1)Есть ли способы сделать более универсальный парсер?
2) Как обходить искусственные тормоза моего парсера со стороны сайтов? Прокси не помогают. Это самая большая проблема, некоторые сайты после примерно 50 заказов (не подряд, а каждый день по одному-два) просто очень долго грузятся

Вопрос задан более трёх лет назад
1394 просмотра

2 комментария

Подписаться 5 Оценить 2 комментария

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+3 ещё

Простой
Нужна помощь/совет — Telegram бот?
- 1 подписчик
- час назад
- 39 просмотров
0

ответов
Python

+1 ещё

Средний
Как победить варнинг There is no current event loop в юнитестах?
- 1 подписчик
- 3 часа назад
- 23 просмотра
0

ответов
Python

+1 ещё

Простой
Как работают рекурсии?
- 1 подписчик
- 3 часа назад
- 56 просмотров
3

ответа
Python

+3 ещё

Средний
Как запустить обучение с deepspeed у себя на пк?
- 2 подписчика
- 5 часов назад
- 120 просмотров
1

ответ
Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- 23 часа назад
- 76 просмотров
2

ответа
Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- вчера
- 59 просмотров
1

ответ
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- вчера
- 77 просмотров
1

ответ
Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- вчера
- 105 просмотров
3

ответа
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- вчера
- 72 просмотра
0

ответов
Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- вчера
- 47 просмотров
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

8266 f12 требуется сделать ревью и оптимизировать работу

26 апр. 2024, в 20:42

2000 руб./за проект

Доработать и интегрировать модуль на WordPress

26 апр. 2024, в 19:53

5000 руб./за проект

Разработать Telegram mini app

15 апр. 2024, в 22:14

30000 руб./за проект

50 заказов - ясно. А запросов перед этим на поиск нужного товара с нужным свойством, он сколько делает, 1 000 000?
нет ни каких запросов на поиск нужного товара. товар рандомный

Answer 1 · 2015-11-25 10:01:56

1) Все дело в искусстве (именно так) написания XPath-выражений. Одно дело просто валидный (для конкретного документа) xpath, а другое дело xpath нечувствительный (до определенных пределов) к изменениям верстки страницы.
2) Вести логи. Отслеживать все принимаемые от сервера заголовки, коды ответов, временные метки, ну и сами возвращаемые страницы. Далее анализировать собранные логи, пытаться выявить какие-то закономерности. Внимательно рассмотреть (в логах) тот момент, когда сервер еще отдавал нормальные ответы, после чего начал ругаться. Что произошло изменилось в этот момент? Сколько запросов было оправлено пере этим a) в определенную сессию; b) с определенного User-Agent; c) с определенно ip; d) за предшествующую минуту/час/сутки ? Какое-то ровное число? 100/1000/1000000 ? И делать из этого свои выводы относительно формальных критериев для бана на сервере.

Answer 2 · 2015-11-25 10:16:21

> некоторые сайты после примерно 50 заказов

что это значит? ваш бот заказывает товары в магзинах?

Парсер-бот на python — как оптимизировать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт