Как спарсить сайт, у которого есть очень интерестный антибот?

На сайте rbt.ru подключили блокировку от парсинга. После отправления запроса на их сайт, идет редирект на какой-то сторонний сервис ohio8.vchecks.info/.....
В конце js-скрипта, который там лежит, генерируются 3 параметра, которые нужны для формирования нового урла и генерации кук.
Может кто помочь обойти данную защиту ??
  • Вопрос задан
  • 4457 просмотров
Пригласить эксперта
Ответы на вопрос 4
alex5e
@alex5e
В качестве 100% варианта можно рассмотреть headless-Chrome с webdriver для python, но это потребует больших ресурсов, нежели обычный http-клиент

import time

from selenium import webdriver
import selenium.webdriver.chrome.service as service

service = service.Service('/path/to/chromedriver')
service.start()
capabilities = {'chrome.binary': '/path/to/custom/chrome'}
driver = webdriver.Remote(service.service_url, capabilities)
driver.get('http://www.google.com/xhtml');
driver.quit()
Ответ написан
Jump
@Jump
Системный администратор со стажем.
Два варианта - либо вы выясняете что делает скрипт, и эмулируете это программно
Либо просто управляете браузером например через selenium, или через плагин, тогда он сам выполнит JS и проблем нет.

Первый вариант - долго и нудно разбираться что там и как.
Второй вариант - работает медленней, и ресурсов требует много, зато запустить парсинг можно быстро.
Ответ написан
Комментировать
@ynblpb_spb
дятел php
phantomjs / casperjs
Ответ написан
Комментировать
webinar
@webinar
Учим yii: https://youtu.be/-WRMlGHLgRg
Присоединяюсь к коллегам и добавлю ПО, если ручками не хочется:
sbfactory.ru/?p=600
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы