@vosyukov

Правильно ли сделана архитектура системы для парсинга?

Скрипт на питоне ходит по сайту и собирает ссылки, затем он отправляет их в Rabbitmq. Другие скрипты на питоне обращаются к очереди и парсят все нужные данные и помещают ее в монгу.

Собственно вопрос , можно ли в этой системе что то сделать лучше или можно использовать какие то другие инструменты?
  • Вопрос задан
  • 362 просмотра
Решения вопроса 1
Нормальное решение. Идеальных решений не бывает.
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 1
@InoMono
Нужно отдавать себе отчет, что сейчас много сайтов оживают только если включен JavaScript.
То есть спарзить на голом Python можно не все.
Для полноценного чтения информации с многих сайтов нужно что то вроде SimplerJS, PhantomJS, Selenium
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы