Написание ботов для сайтов с AJAX, с помощью Selenium или PhantomJS. Как отслеживать изменения, вносимые в DOM уже JSом (либо сами AJAX-запросы)?

Question

VZVZ @VZVZ

Reverse-Engineer, Software Developer, Architect

Написание ботов для сайтов с AJAX, с помощью Selenium или PhantomJS. Как отслеживать изменения, вносимые в DOM уже JSом (либо сами AJAX-запросы)?

Начну с начала.
Свое изучение столь перспективного направления, как разработка ботов (автоматических клиентов) для всяких-разных сайтов/сервисов, я в свое время, как и любая школота, начал с браузерных движков (WebBrowser - Internet Explorer и Awesomium).
Первыми камнями преткновения стали:
1) столь популярный ныне AJAX, который на многих сайтах динамически подгружал некий контент, и это нельзя было толком отследить, а значит, и получить этот контент
2) загрузка файлов в поля input type=file (через JS невозможно загрузить файл в такое поле, разве что методом тупого автокликинга, ну а каких-то особых средств для этого, движки не предоставляли (хотя теоретически вполне могли бы, мать их!))

Тогда я открыл для себя HTTP-сниффер (Fiddler - мой любимый), а затем и HTTP-запросы (надо сказать, запросы я открыл чуть ранее - работая с официальными API, вроде как у VK, но то знакомство было очень поверхностным, да и это уже совсем оффтоп, ибо мы говорим о тех сайтах, у которых подходящего API вообще нет).
Низкоуровневость этого подхода обеспечивает основные его плюсы (быстродействие, и универсальность - прокатывает для 99,99% всех сайтов), но она же и создает недостатки: трудоемкость и нестабильность-нестойкость к любым мерам по борьбе с ботами от админов.
Очень тяжело имитировать все заголовки, какие отправляет браузер (а иначе серверу очень легко бот отличить от браузера).
Порой сложно разобраться, какие точно отсниффенные запросы надо отправлять, а какие нет.
Также сложно иногда разобраться, как JS генерирует иные значения (и наладить алгоритм у себя).
И т.д.

В целом это приемлемо для многих случаев, поэтому отказываться от этого подхода я не собираюсь. Но каждой задаче - свой инструмент.
А есть задачи, где стабильность и быстрота написания - важнее быстродействия.
Возвращаться к простым браузерным движкам желания нет, потому к Selenium и PhantomJS сперва относился скептически.

Но очень подкупило то, что PhantomJS, оказывается, содержит те самые "особые средства" для загрузки файлов в input type=file, которые простые не-специальные движки (мать их!) не предоставляют!

И вот вопросы:

1) Загрузка файлов - ОК.
А можно ли с помощью PhantomJS также и отслеживать, перехватывать изменения в DOM-модели, которые вносит JS с AJAX-запросов?
Вроде там есть возможность перехватывать те запросы (пример кода в треде таки не помешает)))
А если надо отловить именно изменения в DOM? Mutation Events там работают? А может и для этого есть "особые средства"?

2) А как там дела у Selenium в плане загрузки файлов, отслеживания HTTP-запросов, изменений в DOM?

Вопрос задан более трёх лет назад
1846 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

JavaScript

+3 ещё

Простой
Как стилизовать пагинацию постов по определённому признаку?
- 1 подписчик
- 7 часов назад
- 49 просмотров
1

ответ
JavaScript

+2 ещё

Простой
Как отобразить массив из элементов?
- 1 подписчик
- 8 часов назад
- 70 просмотров
0

ответов
Telegram

+1 ещё

Простой
Как накручивать реффералов веб-версии телеграм ботом?
- 1 подписчик
- 9 часов назад
- 42 просмотра
0

ответов
JavaScript

+1 ещё

Простой
Неизвестные скрипты на сайте (plupload и moxie). Для чего?
- 1 подписчик
- 12 часов назад
- 100 просмотров
1

ответ
JavaScript

+2 ещё

Простой
Как сделать так, чтобы звезда падала только при скролле страницы?
- 1 подписчик
- 13 часов назад
- 73 просмотра
0

ответов
JavaScript

+1 ещё

Простой
Почему вылезает второй слайд?
- 1 подписчик
- 14 часов назад
- 37 просмотров
1

ответ
JavaScript

Простой
Почему в букмарклете должным образом не выполняется Alt + Click?
- 1 подписчик
- 22 часа назад
- 39 просмотров
1

ответ
JavaScript

Средний
Как создать кроссбраузерный функиональный плеер?
- 1 подписчик
- 22 часа назад
- 63 просмотра
0

ответов
JavaScript

+1 ещё

Средний
Почему функция mnemonicToWalletKey из библиотеки тон генерирует неверный адрес кошелька?
- 1 подписчик
- вчера
- 47 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Как передавать данные гугл таблицы в телеграм при добавлении новой записи?
- 1 подписчик
- вчера
- 58 просмотров
0

ответов
Показать ещё Загружается…

JavaScript разработчик

summer • Ярославль

от 100 000 до 140 000 ₽

Junior JavaScript Developer

КРАФТТЕК • Санкт-Петербург

от 60 000 до 80 000 ₽

JavaScript разработчик

Мэтч

от 80 000 ₽

Настройка сервера

18 апр. 2024, в 21:56

2000 руб./за проект

Помощь с водпресс

18 апр. 2024, в 21:00

150 руб./за проект

Спарсить ссылки на все товары конкретного продавца в озон

18 апр. 2024, в 20:13

2000 руб./за проект

Answer 1 · 2016-01-25 12:14:03

1) А зачем для такого выкосоуровнего инструмента отслеживать такую низкоуровневость как изменение DOM? Максимум что нужно это XPath для вытаскивания данных и wait() для ожидания появления данных вычисляемых через JS или подтягиваемых через AJAX.
2) На сколько я помню ни каких. Банально даже статуст HTTP ответа получить нельзя.

Нужно просто понимать, что Selenium и webdriver в частности писались для тестирования, а не написания ботов. То, что он используется и для ботов, просто побочный эффект. Поэтому что-то как ни крути придется допиливать руками. В контексте PhantomJS к примеру дописать для него JS скрипты (как вариант, стоит ознакомиться к CasperJS в котором какой-то набор JS уже написан) которые дополнят недостающий функционал.

Написание ботов для сайтов с AJAX, с помощью Selenium или PhantomJS. Как отслеживать изменения, вносимые в DOM уже JSом (либо сами AJAX-запросы)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт