Серверный JS парсер множества аккаунтов с динамичным контентом: куда копать?

Question

webfaker @webfaker

Серверный JS парсер множества аккаунтов с динамичным контентом: куда копать?

Чтобы сразу отсечь непродуктивную полемику: никого не пытаюсь сломать, что-то украсть и проч.
Суть проблемы: есть сайт (крупный международный сервис, но назвать не могу), с которого ~раз в сутки надо скачивать отчёты. Аккаунтов много - несколько десятков, API - нет. Приходится "специально-обученному" человеку много раз перелогиниваться, что занимает уйму времени.
В 21 веке хотелось бы процесс автоматизировать: я сам "php-шник", но там ряд сложностей: авторизация многоэтапная, на ajax'e - с кучей влияющих на процесс cookie's на поддоменах + сам контент отчётов тоже подгружается ajax по post-запросу, естественно с same-origin, так что CRON и прочие школьные технологии не помогут.
Представляется некий браузерный парсер... и, конечно, буду искать специалиста, но привык максимально понимать предмет: из того что нагуглил образовалась только каша из слов, которые пришиты тегами к вопросу.
Если кто-то сталкивался с подобными задачами, пожалуйста, поделитесь рецептом: вообще возможно ли такое и какие есть варианты, какие конкретно технологии лучше использовать. Желательно, с учётом решения возможных побочных проблем, таких как капча, возможная блокировка по IP и проч. Повторюсь: аккаунтов несколько десятков)
ПЫСЫ: не сочтите за наглость - первый раз решился обратиться за помощью к Хабра-сообществу, с надеждой))

Вопрос задан более трёх лет назад
667 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- час назад
- 36 просмотров
2

ответа
Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- 4 часа назад
- 42 просмотра
0

ответов
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- 6 часов назад
- 54 просмотра
1

ответ
Node.js

+3 ещё

Средний
Как решить ошибку Nuxt 3: does not provide an export named execa?
- 1 подписчик
- 9 часов назад
- 31 просмотр
0

ответов
Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- 10 часов назад
- 85 просмотров
2

ответа
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- 13 часов назад
- 59 просмотров
0

ответов
Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- 16 часов назад
- 46 просмотров
0

ответов
Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium?
- 1 подписчик
- 22 часа назад
- 65 просмотров
2

ответа
Selenium

Простой
Как проскролить страницу в право в определенном фрейме?
- 1 подписчик
- вчера
- 15 просмотров
1

ответ
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- вчера
- 167 просмотров
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

TeamLead Python

AGIMA • Москва

До 350 000 ₽

Повысить оригинальность работы с 14% до 70%

25 апр. 2024, в 23:14

1600 руб./за проект

Доработать приложение - интегрировать виджет TODOs

25 апр. 2024, в 22:44

5000 руб./за проект

Доделать проект - расширение для Whatsapp (Chrome)

25 апр. 2024, в 22:33

15000 руб./за проект

Answer 1 · 2017-02-12 16:40:59

можно сразу сюда + Scrapy (возможно, что это не тот AJAX,но хз что там у вас)
(есть еще Grab, но хз как у него с JS)

а можно классикой - PhantomJS / Selenium- понять один сайт, потом на сервере размножить

баны ИП - ВНП/Прокси, лучше свои / покупные постоянный

Капча - антикапча сервисы (где ручками), пока еще Гугл разрешает

Серверный JS парсер множества аккаунтов с динамичным контентом: куда копать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт