Множестов объектов одним запросом (insert/update)?

Question

Alexander @syschel

freelance/python/django/backend

Множестов объектов одним запросом (insert/update)?

Есть магазин. Есть товары приходящие в CSV файле.
Сейчас перебираю файл построчно. Строка = товар.
Если товара нет в БД, то добавляю. Если есть, то обновляю цену.
В итоге получаю кучу запросов на добавление, обновление. Хотя по сути, данные статичны и можно складировать в список ,а потом массово одним запросом скормить в БД. Как это сделать методами ОРМ джанги?

Цель:
Меньше обращений к БД, быстрее обрабатывается файл, меньше нагрузка на железо

Сейчас:

file_url = './../file/items.csv'
with open(file_url, 'rb') as csvfile: # перебираем строки
    spamreader = csv.reader(csvfile, delimiter='|', quoting=csv.QUOTE_MINIMAL)
    for row in spamreader: # перебираем ячейки в строке
        id_item = row['item'].replace("'", "")
        item = Item.objects.filter(id_item=id_item)
        if not item:
            item = Item(id_item=id_item)
            item.name = row['name'].replace("'", "")
            ....
        else:
            item = item[0]
            item.price = row['price'].replace("'", "")
        item.save()

Как видим, пробегая файл, каждый товар делает запрос в БД на получение товара, сохранение/обновление.

Часть логики моей, как вижу
К примеру проверку можно убрать, вытянув список всех товаров предварительно

all_item = Item.objects.all().values_list('id_item', flat=True)

И тогда уже завести два списка, куда сохранять товары предварительно, пробегая файл. Тупо проверяя есть ли значение в all_item

file_url = './../file/items.csv'
add_item = []
upd_item = []
with open(file_url, 'rb') as csvfile:
    spamreader = csv.reader(csvfile, delimiter='|', quoting=csv.QUOTE_MINIMAL)
    for row in spamreader:
        id_item = row['id_item'].replace("'", "")
        if id_item in all_item: # Та самая проверка
            upd_item.append({'id_item': id_item, 'price': row['price'].replace("'", "")})
        else:
            add_item.append({'id_item': id_item, 'name': row['name'].replace("'", "")})
# Вот тут уже то самое добавление / обновление
# Item(add_item).save() or Item(upd_item).save()

Интересует как именно "правильно" собрать эти списки и как потом одним/двумя запросами скормить в базу. Всё методами ОРМ джанги, а не кастылями с прямыми запросами в БД.

З.Ы. В магазин приходит порядка 10-40к товаров за день на добавление/изменение. Иногда, бывает и под 100к товаров, когда новый поставщик добавляется. В магазине за пару месяцев в БД может висеть под 1кк товаров.

Вопрос задан более трёх лет назад
899 просмотров

Комментировать

Подписаться 7 Оценить Комментировать

Решения вопроса 2

Комментировать

6 комментариев

Alexander @syschel Автор вопроса

За bulk_create, спамибо. Совсем забыл про этот в джанге. А вот вариант с созданием новой таблицы - бредово. Ибо количество товаров в базе растёт. Старые не удаляются, а только помечаются как "удалённые" и отключаются на отображение в некоторых местах, но на сайте отображаются. В итоге каждый день добавляется сколько-то новых товаров, у скольких-то меняется цена, какие-то помечаются как "удалённые". Сайт за менее полу года набрал около 1кк товаров в базе, активных (отображаемых) около 80к. В обновлении может прийти всего 10к товаров на добавление/обновление/удаление. Вы же предлагаете 9,990,000 записей клонировать, ради добавления 10,000.

Написано более трёх лет назад
un1t @un1t

Syschel: ну во первых я не знал сколько у вас там записей добавляются удаляются. А зачем все записи клонировать, ставляем только записи для товаров в наличии, т.е. будет у вас табличка в 10 тыс или соклько там у вас товаров, обновляться каждый день. У меня так 6 миллионов товаров каждый день обновляются.

Написано более трёх лет назад
Alexander @syschel Автор вопроса

un1t: А про "в наличии" в теме вопроса вообще не говорится. Фигурирует только два критерия "создать новый товар" и "обновить цену старых". :-)

Написано более трёх лет назад
un1t @un1t

Syschel: ну цену можно вынести в отдльную таблицу, я же не знаю что тебе нужно обновлять. Но называть решение бредом, это как-то странно, предложи лучше вариант. Если 10 тыс обновить надо всего, то тут вообще проблемы нет, а если пару лямов, то есть.

Написано более трёх лет назад
Alexander @syschel Автор вопроса

un1t: За бред извиняюсь, погорячился. Цену выносить как и скажем название - не рационально. Ибо это основной параметр товара в магазине, который почти всегда нужно выводить. А если выносить в отдельную таблицу, это лишние запросы, пускай даже джоинами. Да и добавление/обновление усложняется из-за работы с двумя таблицами.

10к обновить это проблема. Сейчас просто пробег файла на 10к строк (товаров) с проверкой есть ли в базе, занимает 25 секунд. А вот попытка обновить только цену у 10к товаров пробегая файл, выходит за 10 минут. И это на локалке с 32гб оперативки, ssd и 4 ядрами i5, а на ВПСе где ресурсы не такие, вообще беда.

Написано более трёх лет назад
un1t @un1t

Syschel: что-то долго, 10 минут это уже с учетом того что засунули обновление внутрь транзации?

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

3 комментария

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Django

Простой
Django не могу правильно настроить шаблон?
- 1 подписчик
- 2 часа назад
- 45 просмотров
1

ответ
PHP

+2 ещё

Простой
Как в Drupal 10 массово проставить noindex для >1000 страниц?
- 1 подписчик
- 20 часов назад
- 39 просмотров
1

ответ
MySQL

+1 ещё

Средний
Как восстановить базу данных mysql, если служба mysql не запускается на windows?
- 1 подписчик
- 22 часа назад
- 85 просмотров
1

ответ
Django

Простой
Допустимо ли использовать при деплое встроенный сервер разработки Django в локальной сети?
- 1 подписчик
- 23 часа назад
- 54 просмотра
2

ответа
Django

Простой
Django Как сделать чтоб у TabularInline был вложенный TabularInline?
- 1 подписчик
- вчера
- 19 просмотров
0

ответов
WordPress

+1 ещё

Простой
Как импортировать большую базу данных в Wordpress?
- 1 подписчик
- вчера
- 55 просмотров
2

ответа
Django

Простой
Django inlineformset_factory forms Error The view shop.views.view didn't return an HttpResponse object. It returned None instead?
- 1 подписчик
- 16 апр.
- 60 просмотров
1

ответ
MySQL

+1 ещё

Средний
MySQL ошибка InnoDB: Attempted to open a previously opened tablespace. Куда копать?
- 1 подписчик
- 15 апр.
- 58 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как получить доступ к БД mySQL через терминал?
- 1 подписчик
- 15 апр.
- 92 просмотра
2

ответа
MySQL

+1 ещё

Средний
Как скрестить ElasticSearch и MySQL?
- 3 подписчика
- 15 апр.
- 682 просмотра
2

ответа
Показать ещё Загружается…

Программист C++ Builder / базы данных MySQL

RU Electronics • Москва

от 180 000 до 200 000 ₽

Инженер технической поддержки с английским языком и знанием PHP/MySQL

IT-Aces

от 100 000 до 150 000 ₽

Системный аналитик

ROBOTMIA • Новосибирск

от 100 000 ₽

Скопировать сайт

19 апр. 2024, в 17:06

15000 руб./за проект

Поправить пхп скрипт

19 апр. 2024, в 16:53

1000 руб./за проект

Требуется настройка Яндекс Директа

19 апр. 2024, в 16:45

5000 руб./за проект

Answer 1 · 2015-07-24 13:35:04

Цель:
Меньше обращений к БД, быстрее обрабатывается файл, меньше нагрузка на железо

напротив - тебе нужно максимум передать в бд пусть сама разруливает

В постгресе есть механизм транзакции. Грубо говоря, внутри транзакции коммит проходит только после твоей четкой команды.
Что дает: индекс не пересобирается, пока ты внутри транзакции твои данные не видны для запросов за пределами транзакции (при факапе делаешь роллбек и как ничего и не было)

Те делаешь https://docs.djangoproject.com/en/1.8/topics/db/tr...

@transaction.atomic
def do_stuff():
    # This code executes inside a transaction.

и в функции делаешь get_or_create
Делать список на 40к позиций не стоит - работай с каждой строчкой-товаром отдельно
40к селектов >>> список из 40k

Все проверки и чистку данных из цсв вынеси в отдельные функции, чтоб у тебя основная функция выглядела просто как набор вызовов

Очень-очень советую проводить добавление в модель через ModelForm с валидацией - мало ли какой цсв тебе дадут
Не используй евал и/или исполнение чего-либо из таких файлов
Чисти от js дескрипшены и тайтлы и вообще все что ты можешь в шаблоне случайно показать без фильтрации ака {{ foo|safe }}

Помести код в managed commands

используй профайлер и time ./manage.py do_stuff

Answer 2 · 2015-07-25 19:38:43

Вставить много новых товаров не проблема, хоть милион.
Предварительно выбираем id уже существующих в базе товаров в set.
Затем используй bulk_create, кнечно не миллион сразу вставляй, а пачками по 1000-10000 за раз.
А вот обновить 40 тыс товаров в mysql/postgres удобных механизмов нет.
Если нам надо обновлять не всю информацию, а скажем только наличиие то можно сделать так.
Создаешь отдельную таблицу про наличие товара, туда вставляешь через bulk_create. После того как все вставил, старую таблицу грохаешь, а новую переимновываешь в старую.

Answer 3 · 2015-07-30 18:01:42

Про парсинг csv: смущает дергание вручную replace - может, вам нужно указать quotechar, или написать свой Dialect?
По поводу create и update - сейчас в джанге есть чудесный update_or_create.

Про ваше решение - обязательно заверните all_item в простейший set, чтобы вхождение искалось моментально, а не линейно от числа товаров! В вашем случае это просто ValuesQuerySet -> list!

Answer 4 · 2015-07-24 12:05:06

Roman K @deliro

Транзакцией.

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2015-07-24 12:18:49

Как мне это видится:
1) Одним запросом получаешь товары из базы
2) Парсишь прайс
3) Сравниваешь полученные на шаге 1 и 2 списки
4) На их основе формируешь списки для добавления и обновления
5) С помощью bulk_create или create создаешь товары, c помощью update обновляешь
6) ...
7) Profit
То есть по сути как вы и написали (если я правильно понял)

Множестов объектов одним запросом (insert/update)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт