PavelUstyugov
@PavelUstyugov
Самозанятый веб-разработчик

На чем вы считаете перспективнее делать парсеры?

Изучаю направление парсингов. Научился делать парсеры на php. С другими видами парсеров пока не знаком.
Подскажите на чем еще делают парсеры и какие преимущества других языков для парсинга с точки зрения разработки софта и поиска заказов на данный вид работы.

PS: на бирже видел заказ парсера на node.js. Задумался может тоже помимо php опробовать другие языки.
  • Вопрос задан
  • 3139 просмотров
Пригласить эксперта
Ответы на вопрос 13
dimonchik2013
@dimonchik2013
жизнь прекрасна в Амстердаме, а в Воронеже gаvно
lrg%20(1).jpg4364OS_Web%20Scraping%20with%20Python.jp

P.S. книги разные
Ответ написан
@throughtheether
human after all
Подскажите на чем еще делают парсеры
Python, например.
Requests + lxml для простых парсеров. Gevent/aiohttp для асинхронных запросов. Scrapy для "больших" парсеров, с пайплайнами, асинхронными запросами и прочим. Есть биндинги к Selenium, Ghost.
Ответ написан
iam_not_a_robot
@iam_not_a_robot
Скорость. Пока не надо парсить очень много и php пойдёт, но если вам надо 3 миллиона страниц в день парсить то php уже не будет успевать. Яндекс свой индексатор вроде на GO переписали а раньше он у них на питоне был написан.
Ответ написан
stas_agarkov
@stas_agarkov
Я программист
Я пишу парсеры на Java. Если на сайте встречается сложная функция на JavaScript, беру ее код и исполняю во встроенном JavaScript движке. Интерфейс парсеров делаю на Swing.
Ответ написан
uvelichitel
@uvelichitel
habrahabr.ru/users/uvelichitel
На BNF еще можно писать и потом на yacc генерировать
Ответ написан
@nozzy
Silex, Symfony, Laravel, SQL
Учите Python в связке с Selenium.
Сам занимаюсь парсингом, про PHP пришлось забыть. Приходиться парсить много сайтов, которые написаны на Javascript, поэтому без Selenium никак.
Ответ написан
saboteur_kiev
@saboteur_kiev
build engineer
Изначально, парсеры делали на perl, он для этого и был создан - работа с текстом.
Потом подключился PHP.
Сейчас еще python и javascript.

Отдельно помогают регулярки.
На других языках особого смысла делать нет.
Хотя, еще на Си можно делать, для узкопрофильных задач.
Ответ написан
@vGrabko99
html, css, js, php, golang, mysql
Golang у меня парсит сейчас около 100 сайтов с фильмами и пихает в очередь. Потом с очереди Golang смотрит есть ли такое у меня на сайте и если нет то добавляет. Ну а сам сайтик на пхп
Ответ написан
@frees2
Без PHP невозможно полностью имитировать браузер. Нагрузка на сервер, за это.
Ответ написан
akubintsev
@akubintsev
backend разработчик
На reactphp уже делали парсер? Если нет, то и на ноду/питон переходить не вижу смысла. Я бы понял еще если бы речь шла о Go или Rust
Ответ написан
PavelUstyugov
@PavelUstyugov Автор вопроса
Самозанятый веб-разработчик
можно кстати вообще использовать готовый софт
content_downloader
Ответ написан
@Levhav
Контакты: скайп Levhav, почта Levhav@ya.ru
Можно генерировать парсеры на C++ с помощью LEX и YACC . Я с помощью этих инструментов сделал анализ простых SQL запросов. Для реализации CometQL, но так же эти инструменты используются для генерации парсеров в MySQL и SphinxQL.

В ряде случаев это гораздо эффективнее чем использовать регулярные выражения.
Использовать не очень сложно. За 3 - 4 дня можно освоить.
Ответ написан
@coddy
FullStack Web Developer
C# + HtmlAgilePack.
Вариантов куча, на самом деле
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
от 80 000 до 160 000 руб.
Мобайл Медиа Санкт-Петербург
от 100 000 руб.
Legalbet Саратов
от 70 000 до 90 000 руб.
19 сент. 2019, в 23:58
3500 руб./за проект
19 сент. 2019, в 21:14
20000 руб./за проект
19 сент. 2019, в 19:54
6400 руб./за проект