Лучший ЯП для парсинга веб-сайтов

Question

Андрей Кунцевич @titulusdesiderio

IT-специалист

Лучший ЯП для парсинга веб-сайтов

Последние несколько недель пишу веб-парсер на php. У меня и раньше закрадывались сомнения. Но, после прочтения этой статьи и комментариев к ней, я убедился, что нужно искать другой путь. А точнее другой язык.

Какой, по вашему мнению, ЯП (+Фреймворк/библиотека) лучше всего подходит именно для задачи парсинга веб-страниц?
Буду весьма благодарен за аргументированные ответы. А ещё больше за ссылки на статьи по использованию ЯП в этом направлении и/или на репозитории проектов по теме.

Немного о конкретной задаче, над решением которой я работаю: 50+ независимых сайтов (производителей определённых видов продукции), с которых нужно собрать базу их продуктов. Нужно не только 1 раз прогнать, но и повторять прогон хотя бы раз в день, или при появлении новых продуктов (а следовательно и дописывать код при появлении новых особенностей у новых продуктов). Ввиду большого количества сайтов (которое со временем будет только увеличиваться) необходима возможность масштабирования. При этом крайне важна унификация всех параметров.

Вопрос задан более трёх лет назад
27036 просмотров

Комментировать

Подписаться 41 Оценить Комментировать

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 14

3 комментария

Андрей Кунцевич @titulusdesiderio Автор вопроса

Спасибо за аргументированный ответ.
Но похоже я всё-таки остановлюсь на Perl, ибо сейчас мой php-код на 30-40% состоит из перловских регекспов.

Написано более трёх лет назад
Андрей Кунцевич @titulusdesiderio Автор вопроса

Жаль нельзя поставить флаг «решение» к двум ответам. Ибо ваш ответ тоже заслуживает этот флаг.

Написано более трёх лет назад
Сергей @seriyPS

Скажем так, Erlang отлично подходит когда нужно сложную схему работы наворачивать (прокси/куки/рефереры, частые обращения к БД в процессе работы, регулировка скорости на лету, прокси-чекер, мониторинг, веб-интерфейс для управления процессом) и всё это в кучу потоков (у меня 500-800 потоков примерно). Если парсеры попроще, то наверное и любой ЯП подойдет.
Единственное что сразу посоветую — работайте с сетью асинхронно и не используйте потоки ОС для распараллеливания. Ну и регулярки я использую только если совсем чуть-чуть данных нужно извлечь. Стараюсь брать DOM парсер и XPath.

Написано более трёх лет назад

1 комментарий

Комментировать

2 комментария

Комментировать

1 комментарий

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

HTML

+1 ещё

Простой
При загрузке картинки этот блок не имеет размера, как исправить?
- 1 подписчик
- час назад
- 30 просмотров
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- час назад
- 8 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Пустая страница, ошибок нет. JS. В чем проблема?
- 1 подписчик
- 2 часа назад
- 84 просмотра
0

ответов
HTML

+1 ещё

Простой
Как кодировать кириллицу в поле data?
- 1 подписчик
- 7 часов назад
- 39 просмотров
1

ответ
WordPress

+1 ещё

Средний
Парсинг сайта на wordpress?
- 1 подписчик
- 7 часов назад
- 54 просмотра
1

ответ
Парсинг

+1 ещё

Средний
Как правильно написать функцию IMPORTJSON для парсинга цен криптовалют в гугл таблицу?
- 1 подписчик
- 11 часов назад
- 12 просмотров
0

ответов
HTML

+1 ещё

Простой
Как в теге select один символ сделать другого цвета?
- 1 подписчик
- 14 часов назад
- 84 просмотра
1

ответ
HTML

+1 ещё

Простой
Как поставить элементы в одну строку и выровнять их?
- 1 подписчик
- вчера
- 78 просмотров
1

ответ
HTML

+1 ещё

Простой
Почему не работает pattern на input?
- 1 подписчик
- вчера
- 86 просмотров
2

ответа
HTML

+2 ещё

Простой
Как подкрасить 2 блока в разные цвета по всей ширине в дочернем Blade-шаблоне?
- 1 подписчик
- вчера
- 57 просмотров
2

ответа
Показать ещё Загружается…

Frontend-разработчик (React)

ДАЛЕЕ

от 130 000 ₽

Тестировщик-стажёр

ITooLabs • Тула

от 35 000 до 40 000 ₽

Fullstack PHP Developer

Smapse Education

от 40 000 до 65 000 ₽

[python,go] Залить ВИДЕО в тикток

19 апр. 2024, в 23:00

5000 руб./за проект

Разработка VST-плагина

19 апр. 2024, в 20:43

20000 руб./за проект

Нарисовать баннер для интернет-магазина

19 апр. 2024, в 20:35

500 руб./в час

Answer 1 · 2012-12-25 15:37:20

Как только возникает слово «парсинг», в первую очередь стоит вспоминать о Perl (Practical Extraction and Report Language). Для решения этой задачи там есть:

модули для работы с HTTP — как низкоуровневые, так и специальные, типа WWW::Mechanize — удобен, если надо написать скрипт, который последовательно выполняет какой-то набор операций (например надо автоматизировать какие-то действия пользователя web-интерфейсе, а API никакого не предусмотрено);
модули для асинхронной работы по HTTP (AnyEvent::HTTP) — позволяют написать робота, который без необходимости создавать множество тредов будет выполнять одновременно несколько запросов;
регулярные выражения — мощнейший инструмент для парсинга данных, и в perl его использование наиболее удобно (это часть синтаксиса языка);
библиотеки для разбора HTML в дерево (например HTML::Parser);

Python хороший скриптовый язык общего назначения, но для задач разбора данных код на Perl будет куда проще.

Answer 2 · 2012-12-26 01:56:57

У меня половина опыта работы — именно написание пауков и веб-парсеров.
Писал их и на PHP + CURL, потом на голом питоне + треды.
Потом узнал о Scrapy (асинхронный фреймворк для граббинга сайтов на Python) и на нём штук 5 независимых проектов реализовал, в том числе один, где нужно аггрегировать и периодически обновлять информацию с 20 различных форумов. Основная его проблема — он асинхронный, но однопоточный. Так что больше одного ядра им не нагрузить и долгий запрос к БД не сделать. А так очень хороший фреймворк.
Потом несколько пауков делал на Python с помощью Celery.
А совсем недавно переписал довольно сильно нагруженного паука (50-70Мбит/с через списки прокси) с Python + Celery на Erlang и понял, что это ОНО! Мало того, что стал работать в 2-3 раза быстрее, но понял, что для этой задачи что-то более подходящее сложно придумать.
Поясню — у паука на Erlang можно без остановки процесса, например, изменить число потоков, обновить код, перезагрузить конфиги. Можно на ходу отпрофилировать код чтобы узнать, почему скорость упала или что так нагружает CPU. Можно совмещать зеленые потоки, асинхронную работу с сетью и долгие запросы к БД. И всё это фактически из коробки. В конце концов, код получается более логичный.

Answer 3 · 2012-12-25 03:45:58

В PHP есть XPath, есть библиотеки аля PhpQuery, ну и т.д. Есть возможность запускать одновременно несколько запросов через multi curl. Так что можно организовать это все худо бедно нормально. Все то же самое и даже больше есть в питоне да и в любом другом языке. Так что для этой задачи подойдет любой язык, который вы знаете.

Answer 4 · 2012-12-25 03:25:50

ЯП в данной задаче суть третьестепенная задача после разбора html и поиска ключевых элементов.
Поскольку именно последняя задача самая главная, то и ориентироваться надо на нее — обычно кучка регулярок и некий контроллер для отработки вариаций и исключений, поскольку регулярки не идеальный инструмент для этого случая.

Я писал похожую систему для книжного агрегатора на php, но только лишь потому что WP.

Answer 5 · 2012-12-25 11:40:16

Николай Васильчук @Anonym

Программирую немного )

Какой, по вашему мнению, ЯП лучше всего подходит именно для задачи <любая_задача>?
Тот, который вы знаете лучше всего.

Ответ написан более трёх лет назад

2 комментария

Answer 6 · 2012-12-25 08:09:49

XaMuT @XaMuT

Ruby и nokogiri — проще некуда ;)

Статья на хабре

Ответ написан более трёх лет назад

Комментировать

Answer 7 · 2012-12-25 08:53:02

Для такой задачи пару лет назад использовал Perl с подключением библиотек CPAN'а (в частности HTML::Parser), ибо очень понравилась его работа с regexp'ами. Посмотреть что-то подобное можно тут или тут

Answer 8 · 2012-12-25 14:36:56

Что парсер Хабра глючит, может, так получится

$s = file_get_contents( 'yandex.html' );

$tidy = new tidy();
$tidy->parseString( $s, array(
    'output-xml'       => true,
    'clean'            => true,
    'numeric-entities' => true
), 'utf8' );

$tidy->cleanRepair();
$xml = simplexml_load_string( tidy_get_output( $tidy ) );

$adwords = $xml->xpath( '//*[@class="b-adv"]' );
var_dump( $adwords );
exit;

$tads = $xml->xpath( '//*[@id="tads"]' );
var_dump( $tads );
exit;

$a = $xml->xpath( '//a[@href]' );
//var_dump( $a );

array_walk( $a, function( $item ) {
    $href = $item->attributes()->href;
    if ( strpos( $href, 'start=' ) !== false )
        echo $href."\n";
    //var_dump( $attrs );
    //exit;
} );

Answer 9 · 2012-12-25 21:30:15

zarincheg @zarincheg

В PHP есть работа с DOM, XPath. Ну и регулярные выражения разумеется. Что еще надо =)

Ответ написан более трёх лет назад

Комментировать

Answer 10 · 2012-12-25 14:33:24

Возможно, Вам пригодится вот этот тестовый фрагмент кода, которым я искал блоки диретка на страницах Яндекса.

<source lang="php">
<?php

$s = file_get_contents( 'yandex.html' );

$tidy = new tidy();
$tidy->parseString( $s, array(
    'output-xml'       => true,
    'clean'            => true,
    'numeric-entities' => true
), 'utf8' );

$tidy->cleanRepair();
$xml = simplexml_load_string( tidy_get_output( $tidy ) );

$adwords = $xml->xpath( '//*[class="b-adv"]' );
var_dump( $adwords );
exit;

$tads = $xml->xpath( '//*[id="tads"]' );
var_dump( $tads );
exit;

$a = $xml->xpath( '//a[href]' );
//var_dump( $a );

array_walk( $a, function( $item ) {
    $href = $item->attributes()->href;
    if ( strpos( $href, 'start=' ) !== false )
        echo $href."\n";
    //var_dump( $attrs );
    //exit;
} );

?>
</source>

Answer 11 · 2012-12-25 16:03:48

Алексей Акулович @AterCattus

Люблю быстрый backend

Можно никуда не уходя с PHP выбрать, что больше нравится.
Ну и подробнее по SHD и phpQ.

Ответ написан более трёх лет назад

Комментировать

Answer 12 · 2012-12-26 10:13:56

Пользовался для парсинга сайтов библиотекой Qt + QtWebKit. Замечательно предоставляет весь DOM, а так же можно вытаскивать текущие размеры и координаты фрэймов и вообще элементов страницы.

Answer 13 · 2012-12-27 11:20:44

KEKSOV @KEKSOV

Появилась хорошая хабро статья по этой теме

Ответ написан более трёх лет назад

Комментировать

Answer 14 · 2013-12-17 19:37:21

mikiAsano @mikiAsano

Использую Java и библиотеку jSpout

Ответ написан более трёх лет назад

Комментировать

Answer 15 · 2017-11-16 08:53:52

Evgen @Verz1Lka

Web scraping expert

python + scrapy.org

Ответ написан более трёх лет назад

Комментировать

Лучший ЯП для парсинга веб-сайтов

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт