Архитектура приложения для парсинга большого числа страниц

Question

ivanaverin @ivanaverin

Парсинг

Архитектура приложения для парсинга большого числа страниц

Добрый день.
Помогите, пожалуйста, со следующим вопросом:

Каждый день нужно сверять цены для ~10 миллионов товаров.
Раньше такое количество никогда не обрабатывал (особенно в заданные временные промежутки) , поэтому есть сомнения в реализации подобного.
Как прикинуть достаточную мощность сервера (или серверов ?), пропускную способность и подобное. Какую БД лучше использовать, возможно даже ЯП. Сколько потоков запускать и подобное.
Что бы вы использовали для подобной задачи? Размер страницы ~100кб , время отдачи ~ 2c + ~2c на прокси.

Спасибо

Вопрос задан более трёх лет назад
3061 просмотр

2 комментария

Подписаться 4 Оценить 2 комментария

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+2 ещё

Простой
Почему код не выводит аттрибут title (selenium, python)?
- 1 подписчик
- 20 часов назад
- 48 просмотров
0

ответов
Парсинг

Простой
Как «просканировать» сайт на картинки в директории?
- нет подписчиков
- 05 мая
- 51 просмотр
2

ответа
Python

+1 ещё

Простой
Парсинг виджета AppEvent через GColab?
- 1 подписчик
- 04 мая
- 49 просмотров
1

ответ
Парсинг

Средний
Как автоматически скачивать файл с сайта регулярно?
- 1 подписчик
- 26 апр.
- 62 просмотра
2

ответа
Python

+1 ещё

Средний
Как переместить мышь вместе с элементом в pyppeteer?
- 1 подписчик
- 21 апр.
- 101 просмотр
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 19 апр.
- 107 просмотров
1

ответ
WordPress

+1 ещё

Средний
Парсинг сайта на wordpress?
- 1 подписчик
- 19 апр.
- 90 просмотров
2

ответа
Парсинг

+1 ещё

Средний
Как правильно написать функцию IMPORTJSON для парсинга цен криптовалют в гугл таблицу?
- 1 подписчик
- 19 апр.
- 32 просмотра
0

ответов
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- 17 апр.
- 163 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить данные title на TradingView?
- 1 подписчик
- 17 апр.
- 35 просмотров
1

ответ
Показать ещё Загружается…

Бэкэнд разработчик сайтов

Валверде

от 40 000 до 60 000 ₽

Бэкенд разработчик

MosLine • Москва

от 180 000 ₽

Product Analyst

JustCall • Калининград

от 80 000 ₽

Часовая консультация по WordPress

08 мая 2024, в 14:23

1500 руб./в час

Бот для авито

08 мая 2024, в 14:19

10000 руб./за проект

Создать расширение или локально исполняемый файл для заполнение сайта

08 мая 2024, в 14:17

9000 руб./за проект

Тут сама задача выглядит странно. Целевой ресурс готов морально и технически, что вы (хорошо, если не ещё сотня таких же) будете его насиловать со скоростью 100rps? :)
Может, есть возможность сделать выгрузку цен в xml/csv/whatever и уже нормально работать с дампом?
Думаю готов, так как это один из гигантов. Возможности делать выгрузку, к сожалению, нет.

Answer 1 · 2014-05-30 01:15:31

Эксперемент критерий истины. Чушь. 100 килобайт парсить плевое дело. Я на работе 2 мегабайта на JS парсил на клиенте. При этом со сложной логикой перестроения DOM. + делал все асинхронно, чтобы браузер не вис.
В твоем случае обычным регулярным выражением можно все быстро спарсить одной строкой, получив на выходе массив. Или DOM селектором.

Архитектура приложения для парсинга большого числа страниц

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт