serg_small_developer
@serg_small_developer
Начинающий прогер

Как парсить без бана?

Всем привет, Интересует как парсят большое количество страниц сайта (сайтов) и при этом не получать бан?
Вот именно интересует как многие обходят это, я себе написал парсер на питоне используя (scrapy) все работает как нужно и т.д., но проблема в том что некоторые банят даже если ставить значительную паузу между потоками, как в основном это можно обойти?, у меня мысли только про прокся т.е. прикрутить какой-то прокси чекер чтобы искать их в большом количестве и использовать дальше, но может есть что-то более эффективнее.
Понимаю что никто секретов раскрывать не хочет и т.д., но прошу хотя бы натолкнуть в нужную сторону если не хотите говорить)
  • Вопрос задан
  • 714 просмотров
Решения вопроса 5
  • TheDeadOne
    @TheDeadOne
    Седой и строгий
    Парсеры палятся на том, что ведут себя как роботы. Люди не обходят все доступные ссылки, только некоторое подмножество без ухода на большую глубину. Чтобы не попасться, надо изобразить группу людей шарящихся по сайту. Для этого надо после разбора страницы входа парсить только две-три ссылки с неё, делать случайные паузы между запросами, потом сбрасывать принятые куки, менять user agent и прокси и парсить другие две-три ссылки. Естественно, прокси не должны быть публичными. Если вы могли найти и скачать их список, то разработчики защиты тоже уже его скачали.
    Ответ написан
  • @Verz1Lka
    Web scraping specialist
    Согласен с предыдущим пользователем.
    Хотите парсить в промышленных масштабах - покупайте прокси. Можно покупать общие с другими пользователями прокси, можно выделенные. Торовские ноды банят почти на первом этапе, если начинают защищать сайт.
    Да, можно так-же использовать разные cookie сессии. Хорошее решение - отдельная сессия для каждого прокси. Однако на практике могу сказать, что сайты редко анализируют именно поведение пользователя, чтоб детектить бота, это скорее уже какие-то крутые специальные антискрапинговые системы могут себе позволить.
    Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через TM ID
Похожие вопросы
Вакансии с Моего Круга Все вакансии
Заказы с Фрилансим Все заказы