На чём написать быстрый и лёгкий crawler?

Question

DamskiyUgodnik @DamskiyUgodnik

Парсинг

На чём написать быстрый и лёгкий crawler?

Всем привет!
Есть необходимость парсинга большого объёма данных. Был написан парсер на python (multiprocessing, request), всё работает как надо, но столкнулся с проблемой, каждый поток выедает много процессора и оперативки (даже не ожидал что будет такая нагрузка).

Логика работы следующая:

Берём url (например построчное чтение из файла)
Выкачиваем
Записываем ответ в файлик

Логика вроде примитивная и по идее грузиться ничего не должно, но уже при 20-30 потоках сервер еле шевелится (домашний ПК, средний проц, 16gb оперативки, ubuntu server, кроме парсера ничго не запускается, в диск по данным iotop не упираюсь).

Собственно интересует:
На чём обычно пишут промышленные парсеры, чтобы было быстро, многопоточно и адекватно по ресурсам (предполагаю моя проблема в использовании связки python,multiprocessing,request). Пока это видится в виде чего-то вроде C++ либо я просто не умею готовить python? :)

Вопрос задан более трёх лет назад
80 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

АртемЪ @Jump

Чем вы разбираете страницу? Какие библиотеки используете.
Что за процессор? - модель, частота.
Сколько ресурсов съедает один поток?
Какой средний размер одной загружаемой страницы?

Написано более трёх лет назад

DamskiyUgodnik @DamskiyUgodnik Автор вопроса

1. Страница не парсится, просто получается json по api и в текстовом виде пишется в txt файлик
2. AMD Athlon(tm) X4 840
3. Вот что выводит top

PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
13118 root      20   0  273168  43656  12540 R  14,3  0,4  25:25.34 python3
13112 root      20   0  273896  43920  12576 R  13,3  0,4  24:57.98 python3
13114 root      20   0  273268  43488  12452 S  12,6  0,4  24:59.54 python3
13119 root      20   0  275544  44464  12396 S  12,6  0,4  25:09.68 python3
13121 root      20   0  273236  44100  12504 S  12,3  0,4  25:00.07 python3
13116 root      20   0  273884  44436  12608 R  11,6  0,4  25:02.89 python3
13115 root      20   0  274084  44388  12564 R  10,0  0,4  24:57.24 python3
13117 root      20   0  273408  43448  12384 S  10,0  0,4  24:57.24 python3
13120 root      20   0  273748  44404  12604 S   9,6  0,4  24:36.45 python3

4. 5kb-50kb

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Средний
Как переместить мышь вместе с элементом в pyppeteer?
- 1 подписчик
- 21 апр.
- 94 просмотра
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 19 апр.
- 68 просмотров
0

ответов
WordPress

+1 ещё

Средний
Парсинг сайта на wordpress?
- 1 подписчик
- 19 апр.
- 83 просмотра
2

ответа
Парсинг

+1 ещё

Средний
Как правильно написать функцию IMPORTJSON для парсинга цен криптовалют в гугл таблицу?
- 1 подписчик
- 19 апр.
- 25 просмотров
0

ответов
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- 17 апр.
- 154 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить данные title на TradingView?
- 1 подписчик
- 17 апр.
- 33 просмотра
1

ответ
Парсинг

Средний
Как парсить сайты на Wordpress в определённой доменной зоне?
- 1 подписчик
- 16 апр.
- 26 просмотров
3

ответа
Python

+1 ещё

Простой
Как вывести конкретное значение из класса в python?
- 1 подписчик
- 14 апр.
- 123 просмотра
1

ответ
Парсинг

Простой
Есть кто copart.com парсил?
- 1 подписчик
- 14 апр.
- 108 просмотров
0

ответов
Python

+1 ещё

Средний
Почему ответ из request, появляется только после того как зашёл сайт, с которого и пытаемся получить ответ через запрос, а так он пуст?
- 1 подписчик
- 13 апр.
- 104 просмотра
3

ответа
Показать ещё Загружается…

Веб-разработка и управление IT в Sortage

Sortage • Москва

от 180 000 ₽

Backend Developer C#

Enqo • Москва

от 200 000 ₽

Специалист по работе с договорами (Отдел обеспечения аутсорсинговых операций)

SM Lab • Москва

До 100 000 ₽

Разработать сложный сервис на Django

25 апр. 2024, в 12:03

75000 руб./за проект

Помощь СММ-специалиста

25 апр. 2024, в 11:49

25000 руб./за проект

Помощь с СЕРМ

25 апр. 2024, в 11:37

40000 руб./за проект

Чем вы разбираете страницу? Какие библиотеки используете.
Что за процессор? - модель, частота.
Сколько ресурсов съедает один поток?
Какой средний размер одной загружаемой страницы?
1. Страница не парсится, просто получается json по api и в текстовом виде пишется в txt файлик
2. AMD Athlon(tm) X4 840
3. Вот что выводит top
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 13118 root 20 0 273168 43656 12540 R 14,3 0,4 25:25.34 python3 13112 root 20 0 273896 43920 12576 R 13,3 0,4 24:57.98 python3 13114 root 20 0 273268 43488 12452 S 12,6 0,4 24:59.54 python3 13119 root 20 0 275544 44464 12396 S 12,6 0,4 25:09.68 python3 13121 root 20 0 273236 44100 12504 S 12,3 0,4 25:00.07 python3 13116 root 20 0 273884 44436 12608 R 11,6 0,4 25:02.89 python3 13115 root 20 0 274084 44388 12564 R 10,0 0,4 24:57.24 python3 13117 root 20 0 273408 43448 12384 S 10,0 0,4 24:57.24 python3 13120 root 20 0 273748 44404 12604 S 9,6 0,4 24:36.45 python3

4. 5kb-50kb

Answer 1 · 2019-07-20 14:22:12

Да собственно на чем угодно. Чаще всего на пайтоне и пишут.

Логика вроде примитивная и по идее грузиться ничего не должно, но уже при 20-30 потоках сервер еле шевелится

Есть такая штука как мониторинг нагрузки - смотрите во что упирается - процессор, сеть, память, диск.
Далее - отладка, смотрите сколько времени занимает выполнение той или иной операции, что именно грузит, и оптимизируйте.
Вполне вероятно что проблема в неоптимальном использовании какой-нибудь тяжелой библиотеки, или регулярки сложные массово используются.

Answer 2 · 2019-07-20 16:08:06

Dimonchik @dimonchik2013

non progredi est regredi

Scrapy

Ответ написан более трёх лет назад

Комментировать

На чём написать быстрый и лёгкий crawler?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт