Как на Python распарсить большой XML файл (>500Мб) содержаший ошибки?

Question

un1t @un1t

Как на Python распарсить большой XML файл (>500Мб) содержаший ошибки?

Условия

1) Есть большой XML файл. Соотвественно заргужать его весь в память не подходит.

2) Файл содржит ошибки, напрмер внутри тегов может быть неэкранированные html теги, не закрытые.

lxml и sax умеетю парсить постепенно читая файл, но валятся на незакрытых тегах внутри нужных нам тегов

BeautifulSoup не валиться на незакрытых тегах, но похоже что он загружает весь файл в память сразу же.

Есть ли готовые решения подходящие под данные условия?

Вопрос задан более трёх лет назад
6474 просмотра

Комментировать

Подписаться 5 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 3

Комментировать

4 комментария

DmZ @DmZ

from lxml import etree

parser = etree.XMLParser(recover=True, huge_tree=True)
tree = etree.parse("file.xml", parser)

Написано более трёх лет назад

un1t @un1t Автор вопроса

Попробовал этот вариант. Ошибок не выдает но парсит элементы только до незакрытого тега.

Написано более трёх лет назад
DmZ @DmZ
Он парсит все, просто остальной документ находится внутри этого самого тега — будет каша, так как XML изначально не валидный.
Пример:

>>> from StringIO import StringIO >>> from lxml import etree >>> xml = "<tag1><tag21></tag21><tag22></tag22></tag1>" >>> parser = etree.XMLParser(recover=True, huge_tree=True) >>> tree = etree.parse(StringIO(xml), parser) >>> print etree.tostring(tree, pretty_print=True) <tag1> <tag21> <tag22/> </tag21> </tag1>

Парсер пытается сделать все что может чтобы получить хоть какой-то XML.
Или если добавить текста, то многое уйдет «под» первый не закрытый тег:

>>> xml = "<tag1><tag21>texttext2text3</tag21><tag22></tag22></tag1>" >>> tree = etree.parse(StringIO(xml), parser) >>> print etree.tostring(tree, pretty_print=True) <tag1> <tag21> texttext2text3<tag22/> </tag21> </tag1>

Чтобы этого не происходило, можно к документу написать DTD — структуру документа.
Написано более трёх лет назад
DmZ @DmZ
Например перенесем наш инвалидный пример в файл text.xml и скажем что tag21 не должен парсится вообще:

<?xml version="1.0"?> <!DOCTYPE tag1 [ <!ELEMENT tag1 (tag21, tag22)> <!ELEMENT tag21 (CDATA)> <!ELEMENT tag22 (#PCDATA)> ]> <tag1> <tag21> text text2 text3 </tag21> <tag22> </tag22> </tag1>

А теперь заставим lxml прочитать уже с учетом структуры:

>>> from lxml import etree >>> parser = etree.XMLParser(recover=True, huge_tree=True, load_dtd=True) >>> tree = etree.parse("test.xml", parser) >>> print etree.tostring(tree, pretty_print=True) <!DOCTYPE tag1 [ <!ELEMENT tag1 (tag21 , tag22)> <!ELEMENT tag21 (CDATA)> <!ELEMENT tag22 (#PCDATA)> ]> <tag1> <tag21> text text2 text3 <tag22> </tag22> </tag21></tag1>

Согласитесь что уже гораздо лучше.

Но так как структуру документа знаете только вы, то только вы сами должны разобрать поломанный XML пусть и с помощью сторонних программ. Никакие программы не будут обладать достаточной эвристикой чтобы распарсить поломанный XML так как хочется именно вам.
Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- 19 минут назад
- 8 просмотров
0

ответов
Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- 20 часов назад
- 105 просмотров
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- 20 часов назад
- 74 просмотра
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- вчера
- 184 просмотра
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- вчера
- 141 просмотр
2

ответа
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- вчера
- 162 просмотра
3

ответа
Python

Средний
Почему Низкий FPS анализ изображения yolov8 YOLO?
- 2 подписчика
- вчера
- 32 просмотра
0

ответов
Python

+2 ещё

Простой
Почему Планировщик задач Windows 10 не выполняет скрипт Python?
- 3 подписчика
- 22 апр.
- 1940 просмотров
3

ответа
Python

+1 ещё

Средний
Как переместить мышь вместе с элементом в pyppeteer?
- 1 подписчик
- 21 апр.
- 91 просмотр
0

ответов
Python

+2 ещё

Простой
OK.RU, API приложений, не могу загрузить видео: User must grant an access to permission 'VIDEO_CONTENT'". Как получить этиправа для приложения?
- 1 подписчик
- 21 апр.
- 55 просмотров
1

ответ
Показать ещё Загружается…

Python developer

Bell Integrator

До 350 000 ₽

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

TeamLead Python

AGIMA • Москва

До 350 000 ₽

Вывести запрос на 25 страницу яндекса

24 апр. 2024, в 13:32

300 руб./за проект

Доработка и поддержка сайта агрегатора на Nuxt + Laravel

24 апр. 2024, в 13:19

300000 руб./за проект

Flutter developer

24 апр. 2024, в 13:10

400000 руб./за проект

Answer 1 · 2012-11-16 22:14:38

egorinsk @egorinsk

Если файл XML содержит ошибки, то это уже не файл XML.

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2012-11-16 23:07:10

lxml в варианте «распарсить любой ценой» тоже не проходит?

parser = etree.XMLParser(recover=True, huge_tree=True)

В этом режиме он будет пытаться обойти незакрытые теги и невалидный XML на сколько у него хватит ума.

Answer 3 · 2012-11-17 16:21:30

можно сначала представить что xml — это обычный текстовый и файл и привести структуру тегов в порядок функциями работы со строками, а уже потом открывать его как xml

например можно заменить все html теги на «нетеги»

sed -e 's/<p/\& lt;p/g' -e 's/<\/p/\& lt;\/p/g' file.xml > new.xml

список всех html тегов гуглится

можно предварительно сравнить количество открывающих и закрывающих тегов

grep -o '<[^>]*>' file.xml |  cut -f 1 -d ' ' | sort | uniq -c

Как на Python распарсить большой XML файл (&gt;500Мб) содержаший ошибки?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт

Как на Python распарсить большой XML файл (>500Мб) содержаший ошибки?