Каким образом парсить\разбирать XML подобного вида?

Question

Renniks @Renniks

Каким образом парсить\разбирать XML подобного вида?

Доброго дня!

Прощу помощи в изобретении велосипеда.

Есть xml файл формата:
Разбил переносами и урезал длину строки для повышения читаемости. В оригинале порядка 80к строк, по 20 атрибутов в каждой.

<xml>
	<Detail_collection>
		<Detail 
			Полное_и_сокращенное_наименование_организации="Общество с ограниченной ответственностью "РогаИКо" Сокращенно: ООО "РогаИКо"" 
			ИНН_организации="0123456789" 
			КПП_организации="123456789" 
			Адрес__место_нахождения___организации="РОССИЯ,0123456,"Кукуево г,,Затерянная ул,15/7,," 
			Адрес_электронной_почты_организации="none@none.net"  />
		<Detail Полное_и_сокращенное_наименование_организации="..".." />
		<Detail Полное_и_сокращенное_наименование_организации="..".." />
</Detail_collection>
</xml>

Необходимо выдернуть из него значения атрибутов с дальнешим занесением в бд.

Тренировался на упрощенном варианте:

<?xml version="1.0" encoding="utf-8" ?> 
<xml>
    <Detail_collection>
        <Detail text1="sometext11" text2="sometext21" text3="sometext31" />
        <Detail text1="sometext12" text2="sometext22" text3="sometext32" />
    </Detail_collection>
</xml>

import xml.etree.cElementTree as ET
from SQL_worker import Write_to_SQL

tree = ET.parse("data.xml")
root = tree.getroot()

for data in root.findall(".//Detail"):
    a = (data.attrib["text1"])
    b = (data.attrib["text2"])
    c = (data.attrib["text3"])
    Write_to_SQL(a, b, c)

Такой код отлично отрабатывает "упрощенный пример".
Но оригинальный документ вылетает ещё при парсинге с ошибкой:

xml.etree.ElementTree.ParseError: not well-formed (invalid token)

Ссылаясь на первый же фрагмент с "лишними" кавычками.

Методов нормализации такого файла для последующего парсинга я не нашел.

Есть XML-schema к нему, но насколько я понял, кроме валидации, другого применения ему нет.
В данный момент склоняюсь к разбору с помощью регулярных выражений, но хочется верить, что есть более изящное решение.

Вопрос задан более трёх лет назад
355 просмотров

4 комментария

Подписаться 3 Средний 4 комментария

sim3x @sim3x

Лучше пнуть того кто поставляет хмл, чтоб он сделал свою работу нормально

Написано более трёх лет назад
Renniks @Renniks Автор вопроса

Увы и ах, абсолютно не жизнеспособный вариант :(
Придется использовать то что есть и в таком виде, как оно есть.

Написано более трёх лет назад
Renniks @Renniks Автор вопроса

Максим Сухарьков, ну в целом идея-то красивая - начать глобально пинать разработчиков дабы они придерживались хоть каких-то стандартов.

Написано более трёх лет назад
Renniks @Renniks Автор вопроса

Максим Сухарьков, увы, знакомо, тоже со сметным ПО приходится пересекаться. Благо, весьма поверхностно. Безнадежность ситуации понимаю, но с другой стороны - пока массово не начнут требовать и возмущаться - ничего и не изменится.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

9 комментариев

Renniks @Renniks Автор вопроса

Да, все атрибуты абсолютно идентичны, меняются только значения.
Сам склоняюсь к регулярным, но есть ощущение, что нечто ускользает.
Мерси за ответ!

Написано более трёх лет назад
werevolff @werevolff

Renniks, 1С вообще скользкая. Надо не ощущать, а пилить регулярку. Там ещё помимо кавычек может быть куча ошибок.

Написано более трёх лет назад
Rsa97 @Rsa97

Renniks, Если в каждой строке есть все атрибуты и всегда в одном порядке, то это элементарно: https://regex101.com/r/ADXOnw/1

Написано более трёх лет назад
Renniks @Renniks Автор вопроса

werevolff, эх, а так хотелось ошибиться с предположением о происхождении данной выгрузки, но увы, Вы подтвердили опасения.

Rsa97, ещё раз спасибо, изучаю.

Написано более трёх лет назад
Renniks @Renniks Автор вопроса

Rsa97, благодарю за регулярку - весьма сильно помогла в решение задачи. Однако, увы, и тут не все так просто оказалось. Как минимум, ввиду наличия различных форм(ООО, ОАО, ЗАО, ОДО и т.п.) собственности и набора реквизитов для них. Но основную суть, благодаря Вам, уловил. Посмотрим, что из этого получится.

UPD: Прихожу к мысли, что нужно перебирать атрибуты в строке по одному и в зависимости от значения - варьировать набор для поиска.

Написано более трёх лет назад
werevolff @werevolff

Renniks, не знаю других инструментов, которые выгружали бы контрагентов в битом XML с обилием кириллицы. По опыту скажу, что парсер такой выгрузки на php я писал неделю. С юнит-тестами без мокинга. При этом, времени на отдых пока шли тесты не было. Стабильно часто тест дохнул.
Коллега писал выгрузку для какой-то кредитной организации. Без тестов. Писал месяц. Источником был 1С. Так что, там кавычками не ограничится.

Написано более трёх лет назад
Renniks @Renniks Автор вопроса

werevolff, благодарю, обнадежили :)
Сам пришел к аналогичному выводу - задачка не столь простая, как казалось и потребует тщательного тестирования с последующей отладкой.

Написано более трёх лет назад
Rsa97 @Rsa97
Renniks, На самом деле задачка несложная, если составить список всех известных параметров. Тогда можно сначала разбить текст по строке "<Detail ", затем каждую строку в цикле разобрать страшной регуляркой вида:
Полное_и_сокращенное_наименование_организации|ИНН_организации|...все остальные параметры...)=(.*?)\s+(?=Полное_и_сокращенное_наименование_организации|ИНН_организации|...все остальные параметры...|\/>)
Написано более трёх лет назад
DevMan @DevMan

Rsa97, все гораздо проще и я описал это в своем ответе.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- час назад
- 22 просмотра
0

ответов
Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium?
- 1 подписчик
- 8 часов назад
- 31 просмотр
2

ответа
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- 17 часов назад
- 134 просмотра
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- 17 часов назад
- 22 просмотра
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- 19 часов назад
- 33 просмотра
0

ответов
Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- вчера
- 133 просмотра
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- вчера
- 93 просмотра
1

ответ
PHP

+2 ещё

Средний
Запросы soap в инфоклинику на php?
- 1 подписчик
- вчера
- 136 просмотров
2

ответа
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- 22 апр.
- 202 просмотра
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- 22 апр.
- 150 просмотров
2

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Написать индикатор на TradingView по хаям/лоям дня недели

25 апр. 2024, в 08:45

4000 руб./за проект

Вычислить размер объекта по карте глубин

25 апр. 2024, в 07:37

5000 руб./за проект

Спарсить TON PLACE: скрейпинг фото и текста с анкет по списку URL

25 апр. 2024, в 05:57

3000 руб./за проект

Лучше пнуть того кто поставляет хмл, чтоб он сделал свою работу нормально
Увы и ах, абсолютно не жизнеспособный вариант :(
Придется использовать то что есть и в таком виде, как оно есть.
Максим Сухарьков, ну в целом идея-то красивая - начать глобально пинать разработчиков дабы они придерживались хоть каких-то стандартов.
Максим Сухарьков, увы, знакомо, тоже со сметным ПО приходится пересекаться. Благо, весьма поверхностно. Безнадежность ситуации понимаю, но с другой стороны - пока массово не начнут требовать и возмущаться - ничего и не изменится.

Answer 1 · 2018-07-30 22:04:45

Тут, IMHO, токмо регуляркой разбирать. Тот, кто этот xml готовил забыл кавычки преобразовать, возможно и другие символы тоже.
Если все атрибуты идут в одном порядке, то, в принципе, разобрать несложно.

Каким образом парсить\разбирать XML подобного вида?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт