Beautiful Soup, html5lib или lxml?

Question

Денис Егоров @ur001

Программист. Искатель. Сноб. Социальный ассоциатор

Beautiful Soup, html5lib или lxml?

Предполагается использование для парсинга пользовательского контента. Соответственно, основное требование — корректная обработка битого HTML. Скорость не критична.

В документации lxml есть вот что:

BeautifulSoup Parser
html5lib Parser

Т.е. оно может парсить с помощью этих библиотек и возвращать дерево lxml. В доках html5lib же сказано:

Support for minidom, ElementTree (including cElementTree and lxml.etree), BeautifulSoup (deprecated) and custom simpletree output formats

Мне скорее всего нужно будет пробегаться по всему DOM-у, думаю SAX будет удобным. Даже так: пробежаться SAX-ом и построить новое дерево с применением определённых фильтрующих-преобразующих правил и типографированием текста.

Вот в раздумье. Подскажите что выбрать?

Вопрос задан более трёх лет назад
11732 просмотра

Комментировать

Подписаться 5 Оценить Комментировать

Решения вопроса 1

3 комментария

Денис Егоров @ur001 Автор вопроса

Мне скорость гораздо менее важна чем надёжность. Так как обрабатывать буду пользовательский контент (посты, комменты).

А насколько lxml хуже в плане обработки невалидного html? И знаете ли вы в каком там виде Beautiful Soap /html5lib парссеры — это просто урезаная версия существующих библиотек? Она поддерживается в актуальном состоянии или нет? Или нужно для их использования ставить эти либы?

Написано более трёх лет назад
kmike @kmike

Не знаю, насколько хуже, смотрите для своих задач. html5lib реализует «правильный» разбор, как браузеры (если браузер может что-то более-менее вменяемое показать для куска html, то и html5lib более-менее вменяемо его распарсит), а lxml и BeautifulSoup — это набор хаков на регекспах, пред-, пост-обработке и тд.

Но большинство документов lxml хорошо отпарсит.

В lxml BeautifulSoup-интерфейс требует установленной библиотеки BeautifulSoup и позволяет использовать парсер из BeautifulSoup, но возвращать результаты через API lxml. То же самое с html5lib в lxml — это интерфейс к html5lib.

Написано более трёх лет назад
sim3x @sim3x

@kmike как ты не прав

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

Комментировать

3 комментария

kmike @kmike

Т.к. он медленнее, чем lxml, разрабатывается достаточно коряво (чего стоит удаленная с pypi версия, которая много кому что сломала), а парсит не лучше, чем lxml. И lxml, и BeautifulSoup могут отпарсить большинство невалидных html-документов, но они не справятся с разными «клиническими» случаями, т.к. они основаны, по сути, на наборе регекспов. html5lib справится со всем, но гораздо медленнее. Поэтому если нужна скорость, то лучше брать lxml, если нужна толерантность — то html5lib, а BeautifulSoup имеет смысл брать только если интерфейс BS привычнее или код уже с BS написан.

Написано более трёх лет назад
Денис Егоров @ur001 Автор вопроса

kmike вы уверены, что lxml работает на regexp-ах?

Написано более трёх лет назад
kmike @kmike

Нет, не уверен. Перед тем как писать, я код lxml почитал и нашел там много регекспов, что ввело в заблуждение.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Пишу Todolist появилась ошибка, как исправить?
- 1 подписчик
- 29 минут назад
- 15 просмотров
0

ответов
Python

+1 ещё

Простой
Как решить проблему с терминалом PyCharm?
- 1 подписчик
- час назад
- 13 просмотров
0

ответов
HTML

+1 ещё

Простой
При загрузке картинки этот блок не имеет размера, как исправить?
- 1 подписчик
- 2 часа назад
- 32 просмотра
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 2 часа назад
- 10 просмотров
0

ответов
Python

+2 ещё

Средний
Возможно ли сделать так, чтобы Telegram GPT-Yandex.Cloud Бот отвечал не только на текстовые сообщения, но и на картинки? И если да, то как?
- 1 подписчик
- 2 часа назад
- 30 просмотров
2

ответа
JavaScript

+2 ещё

Простой
Пустая страница, ошибок нет. JS. В чем проблема?
- 1 подписчик
- 3 часа назад
- 91 просмотр
0

ответов
Python

Средний
Как выполнить авторизацию MS CHAP 2?
- 1 подписчик
- 4 часа назад
- 22 просмотра
0

ответов
HTML

+1 ещё

Простой
Как кодировать кириллицу в поле data?
- 1 подписчик
- 7 часов назад
- 39 просмотров
1

ответ
WordPress

+1 ещё

Средний
Парсинг сайта на wordpress?
- 1 подписчик
- 8 часов назад
- 54 просмотра
1

ответ
Python

+1 ещё

Простой
Как вычислить количество записей?
- 1 подписчик
- 8 часов назад
- 64 просмотра
2

ответа
Показать ещё Загружается…

Frontend-разработчик (React)

ДАЛЕЕ

от 130 000 ₽

Тестировщик-стажёр

ITooLabs • Тула

от 35 000 до 40 000 ₽

Fullstack PHP Developer

Smapse Education

от 40 000 до 65 000 ₽

[python,go] Залить ВИДЕО в тикток

19 апр. 2024, в 23:00

5000 руб./за проект

Разработка VST-плагина

19 апр. 2024, в 20:43

20000 руб./за проект

Нарисовать баннер для интернет-магазина

19 апр. 2024, в 20:35

500 руб./в час

Answer 1 · 2012-05-11 22:56:51

У html5lib самый корректный и надежный парсер (по спецификации), но она медленная. lxml быстрее всех и парсит достаточно хорошо. Вместо SAX можно iterparse использовать, это удобнее часто, и часто быстрее.

Answer 2 · 2012-05-11 20:35:23

alternativshik @alternativshik

lxml однозначно.

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2012-05-12 04:31:24

pawnhearts @pawnhearts

вообще-то beautifulsoup какраз для битого html разрабатывался, незнаю почему от неё отговаривают.

Ответ написан более трёх лет назад

3 комментария

Answer 4 · 2012-05-21 10:18:39

@ur001, посмотрел еще раз код lxml, там есть много всяких регекспов, разбросанных по модулям ( github.com/lxml/lxml/blob/master/src/lxml/html/clean.py#L62 ), но я был не прав совершенно: парсинг html в lxml основан большей частью на парсинге xml.

Т.е. lxml считает, что html — это просто невалидный xml, который можно поправить. С теоретической точки зрения предположение неверное, для парсинга html5 и xml нужны совсем разные парсеры, но на практике часто работает.

Beautiful Soup, html5lib или lxml?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт