Архитектура приложения для парсинга большого числа страниц

Добрый день.
Помогите, пожалуйста, со следующим вопросом:

Каждый день нужно сверять цены для ~10 миллионов товаров.
Раньше такое количество никогда не обрабатывал (особенно в заданные временные промежутки) , поэтому есть сомнения в реализации подобного.
Как прикинуть достаточную мощность сервера (или серверов ?), пропускную способность и подобное. Какую БД лучше использовать, возможно даже ЯП. Сколько потоков запускать и подобное.
Что бы вы использовали для подобной задачи? Размер страницы ~100кб , время отдачи ~ 2c + ~2c на прокси.

Спасибо
  • Вопрос задан
  • 3061 просмотр
Пригласить эксперта
Ответы на вопрос 1
Эксперемент критерий истины. Чушь. 100 килобайт парсить плевое дело. Я на работе 2 мегабайта на JS парсил на клиенте. При этом со сложной логикой перестроения DOM. + делал все асинхронно, чтобы браузер не вис.
В твоем случае обычным регулярным выражением можно все быстро спарсить одной строкой, получив на выходе массив. Или DOM селектором.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы