@Leon1010

Как парсить сайты с защитой от парсинга?

Требуется API, которое может отдать html код страницы (после прохождения защиты с js перенаправлениями), url которой ему послали. Существует сервис Variti который по сути проксирует запросы к сайту, отдавая страницу проверки с генерацией js хеша из параметров браузера и последующим перенаправлением. Пример сайта использующего сервис: bi-bi.ru

Соответственно через curl получить html код реальной страницы не представляется возможным.

При этом, такой сервис как import.io и ему подобные, умеют обходить эту защиту. Но мне нужно обязательно вытащить весь HTML код страницы, не добавляя предварительно url в конструктор сервиса.

Подскажите пожалуйста решение.
  • Вопрос задан
  • 1286 просмотров
Решения вопроса 2
Jump
@Jump
Системный администратор со стажем.
То что вы называете защитой от парсинга - банальный JS.
Часть данных приходит к вам в виде html, а остальные данные запрашивают JS скрипты в вашем браузере.
Если вы не исполняете скрипты - вы не получаете эти данные.

Гарантированный метод - парсить через браузер.
Запускаете браузер, нужные скрипты исполняются, получаете данные.
Для экономии ресурсов браузер можно запускать в headless режиме - без визуального отображения.
Ответ написан
Комментировать
mosesfender
@mosesfender
Меланхолик, параноик, падал с коек
Создаётся экземпляр браузера, в него загружается документ, после подгрузки всех ajax-данных берётся весь DOM, и крути его как хочешь.
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 1
@bozuriciyu
Умиляют сладкие теоретики в ответах.

Как парсить сайты с защитой от парсинга?


Никак! Решения (в паблике) нет. Иначе эти сервисы защиты уже не существовали бы.

При этом, такой сервис как import.io и ему подобные, умеют обходить эту защиту


Вот это как раз пример решения в не паблике) Плати бабос (а они в свою очередь поделятся с сервисами защиты)
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы