@webfaker

Серверный JS парсер множества аккаунтов с динамичным контентом: куда копать?

Чтобы сразу отсечь непродуктивную полемику: никого не пытаюсь сломать, что-то украсть и проч.
Суть проблемы: есть сайт (крупный международный сервис, но назвать не могу), с которого ~раз в сутки надо скачивать отчёты. Аккаунтов много - несколько десятков, API - нет. Приходится "специально-обученному" человеку много раз перелогиниваться, что занимает уйму времени.
В 21 веке хотелось бы процесс автоматизировать: я сам "php-шник", но там ряд сложностей: авторизация многоэтапная, на ajax'e - с кучей влияющих на процесс cookie's на поддоменах + сам контент отчётов тоже подгружается ajax по post-запросу, естественно с same-origin, так что CRON и прочие школьные технологии не помогут.
Представляется некий браузерный парсер... и, конечно, буду искать специалиста, но привык максимально понимать предмет: из того что нагуглил образовалась только каша из слов, которые пришиты тегами к вопросу.
Если кто-то сталкивался с подобными задачами, пожалуйста, поделитесь рецептом: вообще возможно ли такое и какие есть варианты, какие конкретно технологии лучше использовать. Желательно, с учётом решения возможных побочных проблем, таких как капча, возможная блокировка по IP и проч. Повторюсь: аккаунтов несколько десятков)
ПЫСЫ: не сочтите за наглость - первый раз решился обратиться за помощью к Хабра-сообществу, с надеждой))
  • Вопрос задан
  • 667 просмотров
Пригласить эксперта
Ответы на вопрос 1
dimonchik2013
@dimonchik2013
non progredi est regredi
можно сразу сюда + Scrapy (возможно, что это не тот AJAX,но хз что там у вас)
(есть еще Grab, но хз как у него с JS)

а можно классикой - PhantomJS / Selenium- понять один сайт, потом на сервере размножить

баны ИП - ВНП/Прокси, лучше свои / покупные постоянный

Капча - антикапча сервисы (где ручками), пока еще Гугл разрешает
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы