На чем лучше и быстрее написать парсер (PHP)?

Question

php-man @php-man

На чем лучше и быстрее написать парсер (PHP)?

Итак, конкурсанты:

1. phpQuery

+ поддерживает кучу селекторов
- невысокая скорость работы

2. Simple HTML Dom

+ хорошая документация
+ прост в изучении
- говорят об утечках памяти, т.е. большие файлы парсить не получится
- проблемы со скоростью парсинга

3. Nokogiri

+ высокая скорость работы
- ужасная документация

Перечислил все, что пришло в голову, возможно что-то упустил. Так что лучше выбрать?

Вопрос задан более трёх лет назад
17065 просмотров

3 комментария

Подписаться 68 Средний 3 комментария

Решения вопроса 1

3 комментария

Пригласить эксперта

Ответы на вопрос 12

Комментировать

1 комментарий

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PHP

+1 ещё

Средний
Интересует простой скрипт стены комментариев с возможностью добавить фото и мгновенным выводом на страницу?
- 1 подписчик
- 3 часа назад
- 25 просмотров
0

ответов
PHP

+1 ещё

Средний
Как получить телефон из Google OAuth 2.0 API?
- 1 подписчик
- 10 часов назад
- 36 просмотров
1

ответ
PHP

+1 ещё

Средний
Как запускать PHP в терминале Netbeans?
- 2 подписчика
- 11 часов назад
- 109 просмотров
0

ответов
PHP

+1 ещё

Простой
Где ошибка в коде при создании древа в sql из файла?
- 1 подписчик
- 11 часов назад
- 78 просмотров
0

ответов
PHP

+1 ещё

Простой
Как в php формировать ответ на AJAX XMLHttpRequest запрос?
- 1 подписчик
- вчера
- 95 просмотров
0

ответов
PHP

+2 ещё

Средний
Запросы soap в инфоклинику на php?
- 1 подписчик
- вчера
- 134 просмотра
2

ответа
PHP

Простой
Не работает часть скрипта PHP при смены PHP 7 на 8?
- 1 подписчик
- 22 апр.
- 204 просмотра
3

ответа
PHP

Средний
Как найти в массиве ответа API нужное значение, при том что значение может быть написано в разном регистре?
- 1 подписчик
- 22 апр.
- 142 просмотра
3

ответа
PHP

+1 ещё

Простой
Как отправить сообщение в определенную тему в группе Telegram боту на PHP?
- 1 подписчик
- 22 апр.
- 92 просмотра
1

ответ
PHP

+1 ещё

Простой
Почему не работает JWT поверка?
- 1 подписчик
- 22 апр.
- 71 просмотр
0

ответов
Показать ещё Загружается…

PHP Developer

YCLIENTS • Москва

от 200 000 до 350 000 ₽

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

Midlle PHP developer (backend)

ИТЦ Аусферр • Магнитогорск

от 100 000 до 160 000 ₽

Ошибка в 1с при выгрузке товаров на сайт на Битриксе

25 апр. 2024, в 03:08

3000 руб./за проект

Создание и публикация короткого (reels) UGC-видео на YouTube-канале

25 апр. 2024, в 01:46

500 руб./за проект

Настроить перехват https-трафика для android-приложения

25 апр. 2024, в 01:02

10000 руб./за проект

В свое время использовал https://github.com/sleeping-owl/apist Это очень удобно. Сейчас, правда, проект не особо свежий.
о да, документация по nokogiri - это вообще ни о чем. Спасает только вики на гитхабе

Answer 1 · 2016-08-08 20:13:05

DiDom: https://github.com/Imangazaliev/DiDOM

+ высокая скорость работы (сравнение с другими парсерами)
+ хорошая дока
+ большое количество поддерживаемых селекторов
+ самое главное - тесты

Простой пример:

$document = new Document('http://www.example.com/', true);

echo $document->first('title::text');

Чуть посложнее - парсим все ссылки:

$links = $document->find('a[href]::attr(href)');

var_dump($links);

Еще сложнее - получить адреса всех ссылок-картинок:

$links = $document->find('a[href]:has(img)::attr(href)');

var_dump($links);

Другие варианты:
- Symfony DomCrawler
- Zend Dom Query

Answer 2 · 2016-08-09 15:30:35

PHP: multi-curl+regex+DOMXPath

Пример ( https://www.ibm.com/developerworks/ru/library/x-xp... ) :

$doc = new DOMDocument;
$doc->load('products.xml');
$xpath = new DOMXPath($doc);
$products = $xpath->query("/PRODUCTS/PRODUCT[SKU='soft5678']/NAME");
foreach ($products as $product)
   print($product->nodeValue);

Answer 3 · 2016-08-18 11:21:16

Ilya @glebovgin

Full Stack Web Developer

За годы парсинга данных я пришел к простому набору:

Curl + tidy + DOMXpath

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2016-08-09 13:30:01

oe24y @oe24y

Вот еще jQuery-подобный парсер
PHP Simple HTML DOM Parser

Ответ написан более трёх лет назад

1 комментарий

Answer 5 · 2016-08-18 11:36:06

Первый вопрос, парсер чего?
И если я правильно понял задачу этого парсера, то зачем вы изобретаете велосипеды?

* cURL для получения контента - php.net/manual/ru/book.curl.php
Или вот еще нашел объектно ориентированную обертку https://github.com/php-curl-class/php-curl-class
* И, собственно, SimpleXML для разбора документа.

Оба компонента "из коробки" поставляются с PHP. Унифицированные, задокументированные и всем известные интерфейсы.

Или вот еще, компонент Symfony2 symfony.com/doc/current/components/dom_crawler.html

Answer 6 · 2016-08-09 12:56:34

Александр @OneFive

React.js <3

Очень крутая штука https://github.com/sleeping-owl/apist

Ответ написан более трёх лет назад

Комментировать

Answer 7 · 2016-08-12 11:09:38

Я остановился на Nokogiri
Действительно высокая скорость работы(выбирал из тех же что и вы, только года 1.5-2 назад) и жрёт меньше памяти чем остальные. На счёт доки уже не помню, но разобраться не составило труда

Answer 8 · 2016-08-18 15:58:42

Надежнее всего на PhantomJs, так как это полноценный browser. Быстрее на phpQuery

П.с. О Simple HTML Dom пишут что работает с невалидным html. Не работает. Моей причиной перехода с него на phpQuery как раз это и было

Answer 9 · 2016-08-14 04:03:45

Ramzeska @Ramzeska

Добавлю в копилку и свой велосипед =)
https://bitbucket.org/ramzeska/html-dom-parser/wik...

Ответ написан более трёх лет назад

Комментировать

Answer 10 · 2016-08-18 09:51:32

если нужно просто получить текст, самой высокой скоростью обладает DOMDocument phpQuery уступает в скорости примерно в 4 раза (по моим личным тестам), зато имеет кучу селекторов и в итоге для себя я выбрал ее

Simple HTML Dom очень медленный
Nokogiri чисто парсер, замены там нет и по сути тот же DOMDocument который оброс хаками, так что смысла в нем нет, если речь идет о скорости

Answer 11 · 2016-08-18 11:51:17

На чём быстрее

Ответ прост, быстрее на знакомом и/или хорошо документированном инструменте.

На чем лучше

Лучше на нативном. Точнее подсказал, уважаемый xmoonlight

Answer 12 · 2016-08-18 17:48:55

Андрей Саныч @mountpoint

я просто оставлю тут ссылку https://github.com/Imangazaliev/DiDOM/wiki/%D0%A1%...

Выводы делайте сами

Ответ написан более трёх лет назад

Комментировать

Answer 13 · 2017-02-07 15:15:27

https://github.com/FriendsOfPHP/Goutte
Отличный парсер с возможностью проваливаться вглубь по ссылкам. Простой и удобный интерфейс. В зависимостях у него в composer - е symfony/dom-crawler, так что если верить тестам товарища комментом выше, то производительность в сравнении средняя. Зато порог вхождения быстрый (выборки по css селекторам, получение данных и атрибутов через аналоги jQuery методов .text(), .attr(), а также перебор через .each())

На чем лучше и быстрее написать парсер (PHP)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт