michael_novikov
@michael_novikov
Кот

Быстрый парсер кодов ответа сервера для 1 млн сайтов. Пока что выбрал PHP?

Доброго времени суток. Вопрос такой, собираюсь сделать простой, но быстрый парсер заголовков ответов серверов и парсинга главных страниц примерно для 1 миллиона сайтов. Пока что выбор пал на PHP, так как для него есть удобная библиотека CURL (для парсинга главных страниц). Но смущает то, что скрипт PHP довольно быстро упирается в ограничения nginx. Придется продолжать парсинг в несколько итераций и создавать дополнительную нагрузку на базу. Да и не предназначен PHP для таких долгих задач по своей сути.
В идеале выполнять парсинг каждый день. Как думаете, стоит попробовать что-то еще, или выбор в сторону PHP правильный?
  • Вопрос задан
  • 365 просмотров
Пригласить эксперта
Ответы на вопрос 5
@ArgosX
Для данного случая рассмотрите вариант python,nodejs,go
Ответ написан
Комментировать
@vshvydky
по мне эта задача в разы лучше ложится под node.js
Ответ написан
Комментировать
Если про быстроту, то я бы выбрал golang. Там задачи легко асинхронность и параллелить.
На втором месте будет нода, но с использованием какого-нибудь
µWebSockets.
Ответ написан
@Randewoo
Погуглите про асинхронный cURL в PHP, и, если есть возможность, запускайте PHP через консоль. При запуске через консоль отсутствует ограничение по тайм-ауту, соответственно, никакой нагрузки не будет, сам так делал на очень слабенькой VDS.
Ответ написан
@ar2rsoft
PHP-developer
Чтобы парсить можно запускать из консоли, какие тогда ограничения nginx?

Но вообще, присоединяюсь к голосующим за go, python
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы