На чем писать парсер сайтов? на PHP или Ruby?

На чем писать парсер сайтов?
PHP знаю хорошо
Ruby вообще не знаю :)
Парсер должен быть многопоточным и быстро работать)
вот думаю ради такого нужно выучить ruby
или хватит PHP?
  • Вопрос задан
  • 9230 просмотров
Решения вопроса 2
webus
@webus
Golang | Python | NodeJS | Java
Нормальные люди не ищут себе приключений, берут scrapy и python и получают многопоточный парсер из коробки.
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 8
Jump
@Jump
Системный администратор со стажем.
На чем писать парсер сайтов?
- на чем умеете.
Выучить руби оно конечно можно, но не ради написания парсера, к тому же парсер написать на руби ничуть не легче чем на пэхапе.

в пыхе есть нормальная многопоточность?
- той которая есть для парсера хватит с лихвой.

Он нормально спарсит сайт в 200к-500к страниц и будет парсить каждое утро в 9-00

Это вообще не зависит от языка написания парсера. Зависит от того что за сайт будете парсить в первую очередь, как часто вас банить будут, как качественно парсер написан, хорошие ли прокси сервера используете, и.т.п
Ответ написан
Freika
@Freika
Senior Ruby on Rails developer
На том, что лучше знаете. Знаете пхп - пишите на нем. Если хочется по пути освоиться в руби, пишите на Руби. Возможности языков для этой цели практически не отличаются.
Ответ написан
Комментировать
butteff
@butteff
Раз в тысячу лет заправляю свитер в носки
Вообще php, тем более многопоточно, будет очень долго работать.
Я бы писал это вообще под десктоп на чем-то, а не на пыхе.
Но на всякий случай вброшу ссылку, существенно облегчающую жизнь
simplehtmldom.sourceforge.net
Ответ написан
Bandicoot
@Bandicoot
Вась-программист
Пожалуй хватит Пыха
Ответ написан
rework
@rework
Помог ответ? В благодарность отметь его решением
По моему особой разницы тут нет на чем писать, поэтому советую писать на том, что более лежит к душе.
Для многопоточных запросов в php, можно использовать библиотеку curl, и функцию curl_multi_exec. Думаю в ruby можно ей же пользоваться.
Ответ написан
Комментировать
Writerim
@Writerim
Заполнить позже...
Я давно писал парсер следующим образом. bash + curl , распарсивал его тем же башем и получал необходимый кусок. Далее передавал через консоль в php скрипт. Работало очень быстро и на больших объемах.

Сейчас я бы с радостью попробовал что-то готовое.
Ответ написан
@asd111
Java + jsoup. Если сайт формируется через JS то Selenium вместо jsoup.
Многопоточность в Java легко сделать. После PHP на Java легко писать.
Thread t = new Thread(new Runnable() {
    @Override
    public void run() { 
        parse();
        }
    });
t.start();
Ответ написан
@Chups23
Добрый день, парсеры можно писать буквально на всех языках, но для парсеров есть отдельные языки которые подходят для этого! Из этих ЯПОВ я посоветую: '1. Python 2. PHP, 3. Javascript , 4. Ruby, 5. Java and .Net'
Можешь выбирать любой из этих вариантов!
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
YCLIENTS Москва
от 200 000 до 350 000 ₽
Ведисофт Екатеринбург
от 25 000 ₽
ИТЦ Аусферр Магнитогорск
от 100 000 до 160 000 ₽