Как сделать быстрый парсинг XML и запись в базу?

Question

Артем tem@ @file2

improving further

Python
XML

Как сделать быстрый парсинг XML и запись в базу?

Как быстрее произвести сам парсинг и затем сделать insert в бд?
На данный момент использую такой алгоритм, но при больших файлах(и когда файлов много) читает xml и делает insert долго.
Есть ли другой алгоритм быстрее распарсить xml и сделать insert не по каждой записи а группой?
Например сразу записать все что есть в ZAP в client_table , потом DATA вusl_table

import xml.etree.cElementTree as ET
tree = ET.parse(filexml)
element_xml_root = tree.getroot()
dbcur = db.cursor()

for elem in element_xml_root.findall('ZAP'):
    idclient = elem.find('ID_CLIENT').text
    fam = elem.find('FAM').text
    im = elem.find('IM') .text
    ot = elem.find('OT') .text
    query_pac = dbcur.prepare('INSERT INTO client_table (idclient, fam, im, ot)'
                          ' VALUES (:idclient, : fam, : im, : ot)')
    dbcur.execute(query_pac, (idpac, fam, im, ot))
    for data in elem.findall('DATA'):
        code_usl = data.find('CODE') .text
        date_usl = data.find('DATE') .text
        price_usl = data.find('PRICE') .text
        query_usl = dbcur.prepare('INSERT INTO usl_table (idpac, code_usl, date_usl, price_usl)'
                          ' VALUES (:idpac, : code_usl, : date_usl, : price_usl)')
        dbcur.execute(query_usl, (idpac, code_usl, date_usl, price_usl))

db.commit()
dbcur.close()

Вопрос задан более трёх лет назад
4320 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Как создать offline карту на python?
- 1 подписчик
- 4 часа назад
- 40 просмотров
0

ответов
Python

Простой
Какие модули есть в Python для целей анализа, форматирования, вывода текста?
- 1 подписчик
- 5 часов назад
- 25 просмотров
1

ответ
Python

+2 ещё

Простой
Как настроить ТГ бота, чтоб кидал посты с пабликов в мой паблик?
- 1 подписчик
- 6 часов назад
- 26 просмотров
0

ответов
Python

+1 ещё

Простой
Как изменить сообщение с текстом на сообщение с картинкой для тг бота в библиотеке py telebot?
- 2 подписчика
- 13 часов назад
- 174 просмотра
2

ответа
Python

+1 ещё

Простой
Пишу телеграм бота на пайтон и вылезает ошибка KeyError: 'recipes'. Как решить?
- 1 подписчик
- 14 часов назад
- 49 просмотров
2

ответа
Python

+2 ещё

Простой
Как скрыть данные в кнопке KeyboardButton?
- 2 подписчика
- 15 часов назад
- 59 просмотров
1

ответ
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- 21 час назад
- 111 просмотров
2

ответа
Python

+1 ещё

Простой
Почему не срабатывает клик по элементу при открытии станицы selenium python?
- 1 подписчик
- вчера
- 42 просмотра
1

ответ
JavaScript

+1 ещё

Простой
Как подключить кошелёк к web3 сайту?
- 1 подписчик
- вчера
- 73 просмотра
0

ответов
Python

Простой
Выполнение парсинга странцы?
- 2 подписчика
- вчера
- 100 просмотров
2

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Каталог AI tools

18 апр. 2024, в 01:12

150000 руб./за проект

Загрузка характеристик из xml/csv файла в карточки товаров WordPress

18 апр. 2024, в 00:58

5000 руб./за проект

Нарисовать подарки для соц сети

18 апр. 2024, в 00:10

50000 руб./за проект

Используйте SAX-парсер для разбора больших xml-файлов и заворачивайте в транзакцию вставку блоков данных в базу.

Answer 1 · 2018-08-30 12:40:31

Прологируйте подробно вашу функцию и вы поймёте что больше тормозит.
Основных проблемы может быть три:
1) Долгий парсинг XML. Его время зависит от размера файла, а вставлять в базу вы начнете только по окончании парсинга. При этом весь файл в виде объектного дерева у вас будет в памяти. что может быть очень неэффективно.
2) Долгий поиск нужных элементов в дереве. Это сомнительно, что он тут будет существенно тормозить на фоне прочих процессов.
3) Долгая вставка из-за отдельных транзакций на каждую.

1,2) Первая проблема может быть решена потоковым чтением XML через SAX-парсер. На закрытие определенных тегов вешаются события, а объект-парсер накапливает данные в своём состоянии. Это позволит получать данные по мере чтения и парсинга файла, а не после. Вторая проблема, кстати, то же решается sax-парсером. Просто не будет дополнительных накладных расходов на обход построенного парсером дерева.

3) Можно попробовать cursor.executescript для пакетного исполнения запросов. Тут есть минус, нужно валидацию и экранирование данных делать руками и правильно. нужно бояться sql-инъекций.
Лучше использовать cursor.executemany. Вот, например про это на стэковерфлов: https://stackoverflow.com/questions/18244565/how-c...

Как сделать быстрый парсинг XML и запись в базу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт