На чем лучше реализовать многопоточный веб-скрейпер/парсер сайтов?

Question

Andreda @Andreda

На чем лучше реализовать многопоточный веб-скрейпер/парсер сайтов?

НА каком языке программирования и используя какие библиотеки\фреймворки можно написать многопоточный веб-скрейпер/парсер сайтов.

php, nodejs, go, C++ ....

Где по определенному запросу пользователя - необходимо параллельно спарсить со сторонних сайтов-магазинов товары по данному запросу - вглубь сайта не лезть, просто поверхностно на первой странице.

ТО есть пользователь вбивает "джинсы" - сервер запускает до 50 параллельных скриптов или функций, в каждом есть 1-5 http запросов (несколько запросов возможно из-за сложной авторизации на сайте, из-за ввода капчи и тд)/ и другая логика, уникальная для каждого сайта-донора.

И потом информация сбирается со всех потоков и выдается пользователю со всех сайтов.

Информация по ключам будет кэшироваться на некоторое время, но как правило нужно готовиться к высокой нагрузке, когда пользователи будут одновременно искать разные слова\фразы. джинсы,кофта,рубашка и тд.
И сервер, не находя информации в кэше - будет повторно парсить данные со сторонних сайтов в параллельных потоках. То есть и пользователи запрашивают одновременно 50 разных фраз, и серверу необходимо создать по N параллельных функций-парсеров со своей логикой

Вопрос задан более трёх лет назад
980 просмотров

2 комментария

Подписаться 2 Простой 2 комментария

Пригласить эксперта

Ответы на вопрос 6

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Средний
Как переместить мышь вместе с элементом в pyppeteer?
- 1 подписчик
- 21 апр.
- 91 просмотр
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 19 апр.
- 64 просмотра
0

ответов
WordPress

+1 ещё

Средний
Парсинг сайта на wordpress?
- 1 подписчик
- 19 апр.
- 82 просмотра
2

ответа
Парсинг

+1 ещё

Средний
Как правильно написать функцию IMPORTJSON для парсинга цен криптовалют в гугл таблицу?
- 1 подписчик
- 19 апр.
- 25 просмотров
0

ответов
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- 17 апр.
- 152 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить данные title на TradingView?
- 1 подписчик
- 17 апр.
- 33 просмотра
1

ответ
Парсинг

Средний
Как парсить сайты на Wordpress в определённой доменной зоне?
- 1 подписчик
- 16 апр.
- 26 просмотров
3

ответа
Python

+1 ещё

Простой
Как вывести конкретное значение из класса в python?
- 1 подписчик
- 14 апр.
- 122 просмотра
1

ответ
Парсинг

Простой
Есть кто copart.com парсил?
- 1 подписчик
- 14 апр.
- 108 просмотров
0

ответов
Python

+1 ещё

Средний
Почему ответ из request, появляется только после того как зашёл сайт, с которого и пытаемся получить ответ через запрос, а так он пуст?
- 1 подписчик
- 13 апр.
- 104 просмотра
3

ответа
Показать ещё Загружается…

Веб-разработка и управление IT в Sortage

Sortage • Москва

от 180 000 ₽

Инженер верификации (RTL)

TQB - хай-тек рекрутмент по-хардкору

До 300 000 ₽

Системный администратор (инженер) 🚀

Хабр • Москва

от 140 000 ₽

Интеграция и обучение по API Яндекс Маркета

24 апр. 2024, в 17:52

20000 руб./за проект

Сайт с вебзвонками и чатами на react

24 апр. 2024, в 17:33

10000 руб./за проект

Правки в webApp готового и написанного телеграмм бота next, tailwind

24 апр. 2024, в 17:26

6000 руб./за проект

Andreda дорогой пользователь, указывайте соответствующие вашему вопросу теги.
Не стоит спамить тегами в надежде, что это увеличит количество просмотров и/или ответов.
Это так не работает и только приведет к удалению ваших вопросов при повторном спаме.

Answer 1 · 2017-11-15 18:37:44

Pavel Shvedov @mmmaaak

go + goquery

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2017-11-15 19:01:46

Выбор языка для подобной задачи сводится к выбору имеющихся готовых библиотек, которые нужно просто скомпоновать. Задача решалась уже сотни раз, ваять свои велосипеды нет смысла. В почти любом языке, применяемом массово для веб-разработки есть готовые библиотеки для решения подобных задач.

Ну и точно не на С++, будет долго, дорого и бессмысленно, это язык для других задач.

Можно еще посоветовать делать том языке, который лучше всего знаком/нравится тому, кто будет непосредственно это программировать. Или, если исполнитель не знает ни одного подходящего под задачу языка - на PHP, просто потому, что будет проще вникнуть.

Answer 3 · 2017-11-16 08:46:53

Evgen @Verz1Lka

Web scraping expert

python + scrapy.org

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2017-11-15 19:15:42

я бы делал не параллельный, а асинхронный и писал бы на python, а информацию сохранял бы в какой-нибудь базе данных, возможно postgres.

Answer 5 · 2017-11-15 19:36:34

Для этого Go подойдёт. Одновременно 50 потоков это очень мало для него. Всё в один канал шлите и отдавайте.

Answer 6 · 2018-01-02 14:45:42

Emil Revencu @Revencu

Python: Multithreading + Requests + LXML
Больше RAM - больше Threads

Ответ написан более трёх лет назад

Комментировать

На чем лучше реализовать многопоточный веб-скрейпер/парсер сайтов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт