Как парсить сайты с защитой от парсинга?

Question

Leon1010 @Leon1010

Как парсить сайты с защитой от парсинга?

Требуется API, которое может отдать html код страницы (после прохождения защиты с js перенаправлениями), url которой ему послали. Существует сервис Variti который по сути проксирует запросы к сайту, отдавая страницу проверки с генерацией js хеша из параметров браузера и последующим перенаправлением. Пример сайта использующего сервис: bi-bi.ru

Соответственно через curl получить html код реальной страницы не представляется возможным.

При этом, такой сервис как import.io и ему подобные, умеют обходить эту защиту. Но мне нужно обязательно вытащить весь HTML код страницы, не добавляя предварительно url в конструктор сервиса.

Подскажите пожалуйста решение.

Вопрос задан более трёх лет назад
1286 просмотров

Комментировать

Подписаться 3 Простой Комментировать

Решения вопроса 2

Комментировать

Пригласить эксперта

Ответы на вопрос 1

3 комментария

Leon1010 @Leon1010 Автор вопроса

Я готов платить, но не могу найти сервиса, который работает без визуального конструктора. Мне нужно API отдающее html, согласен покупать пакеты с опред. количеством запросов.

Написано более трёх лет назад
bozuriciyu @bozuriciyu

Pardon Me! Where Do I Find 4giveness?, ты не слышал о детекте хедлесс браузеров, теоретик?) Ну вперед обойти защиту, попробуй, потом доказывай.

Написано более трёх лет назад
АртемЪ @Jump

bozuriciyu,
Никак! Решения (в паблике) нет. Иначе эти сервисы защиты уже не существовали бы.

Решение всегда есть.
Задача отличить человека использующего браузер от бота использующего браузер крайне нетривиальная, и вот ее решить крайне сложно, на грани фантастики.
Все защиты лишь усложняют парсинг.

ты не слышал о детекте хедлесс браузеров
Такое сделать возможно.
Однако во первых это непросто и редко кто использует, а во вторых это элементарно обходится - запуск браузера в обычном режиме.

Есть решения которые детектируют ботов по нехарактерным для пользователя действиям, например переходам напрямую. Это тоже обходится при желании без особых проблем.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

JavaScript

+1 ещё

Средний
Как сделать программную навигацию без изменения url в vue-router + vue3?
- 1 подписчик
- 9 часов назад
- 22 просмотра
0

ответов
JavaScript

+1 ещё

Простой
Three.js объект сзади не виден при повороте к нему лицом?
- 2 подписчика
- 13 часов назад
- 182 просмотра
1

ответ
JavaScript

+2 ещё

Простой
Как скачать pdf из встроенного просмотрщика на сайте?
- 1 подписчик
- 15 часов назад
- 111 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Как построение маршрута на 2GIS API v2.0?
- 1 подписчик
- 16 часов назад
- 45 просмотров
0

ответов
Docker

+2 ещё

Простой
Docker+3Proxy + Radius «failed with code 1»?
- 1 подписчик
- 19 часов назад
- 30 просмотров
1

ответ
Proxy

Сложный
Возможно ли с помощью traceroute определить, что пользователь использует прокси?
- 1 подписчик
- вчера
- 84 просмотра
2

ответа
JavaScript

Средний
Эффект наложения блоков?
- 1 подписчик
- вчера
- 108 просмотров
2

ответа
JavaScript

+2 ещё

Средний
Как изменить содержание блока програмно со свойством contentEditable?
- 1 подписчик
- вчера
- 84 просмотра
0

ответов
JavaScript

+4 ещё

Средний
Как сделать правильное динамическое масштабирование ion-range в зависимости от ширины колонок линии со значениями?
- 1 подписчик
- вчера
- 45 просмотров
0

ответов
JavaScript

Простой
Как после сабмита очистить поле type="tel" и показать очищенную маску?
- 2 подписчика
- вчера
- 69 просмотров
0

ответов
Показать ещё Загружается…

JavaScript разработчик

SummerWeb • Ярославль

от 100 000 до 140 000 ₽

JavaScript разработчик

вАйТи

от 5 000 до 25 000 ₽

JavaScript Fullstack

OnClass

от 200 000 до 600 000 ₽

Спарсить TON PLACE: скрейпинг фото и текста с анкет по списку URL

25 апр. 2024, в 05:57

3000 руб./за проект

Правки в webApp готового и написанного телеграмм бота next, tailwind

25 апр. 2024, в 05:29

25000 руб./за проект

Фронтер - DevOps. Развернуть фронт на хостинге. Прокинуть в телегу-бот

25 апр. 2024, в 04:38

10000 руб./за проект

Answer 1 · 2019-10-16 13:21:18

То что вы называете защитой от парсинга - банальный JS.
Часть данных приходит к вам в виде html, а остальные данные запрашивают JS скрипты в вашем браузере.
Если вы не исполняете скрипты - вы не получаете эти данные.

Гарантированный метод - парсить через браузер.
Запускаете браузер, нужные скрипты исполняются, получаете данные.
Для экономии ресурсов браузер можно запускать в headless режиме - без визуального отображения.

Answer 2 · 2019-10-16 13:04:39

Создаётся экземпляр браузера, в него загружается документ, после подгрузки всех ajax-данных берётся весь DOM, и крути его как хочешь.

Answer 3 · 2019-10-16 13:49:47

Умиляют сладкие теоретики в ответах.

Как парсить сайты с защитой от парсинга?

Никак! Решения (в паблике) нет. Иначе эти сервисы защиты уже не существовали бы.

При этом, такой сервис как import.io и ему подобные, умеют обходить эту защиту

Вот это как раз пример решения в не паблике) Плати бабос (а они в свою очередь поделятся с сервисами защиты)

Как парсить сайты с защитой от парсинга?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт