Какие есть годные практики для работы с большим количеством записей в таблице (1M+)?

Question

Crash @Bandicoot

Вась-программист

Какие есть годные практики для работы с большим количеством записей в таблице (1M+)?

Работаю над проектом, в котором достаточно интенсивно накапливаются данные, в одной из таблиц. Над данный момент в ней 60 с небольшим колонок и более 500к записей. Записей прибавляется примерно по 3-4к в сутки, в будущем интенсивность записи будет только нарастать. Интерфейс работы с ней начал подтормаживать, в связи с чем сейчас занимаюсь оптимизацией.

Для себя выделил следующие способы:

1. Индексы, выборочно для полей, по которым чаще всего осуществляется поиск.
2. Объединение нескольких колонок в одну, для однотипных данных. Они будут храниться в формате JSON.
3. Партиционирование. Разумеется работа в проекте не идет одновременно со всеми записями, большинство старых записей хранятся больше для истории. Но тем не менее, они могут понадобится в любой момент. Исходя из этого, пока планирую создать новую, "горячую" таблицу с идентичной структурой. В "горячей" таблице будут храниться свежие данные, скажем за месяц. В "холодной", исходной таблице - вообще за все время, включая свежие записи. Горячая таблица будет для оперативной работы, холодная - для поиска по запросу. В дальнейшем холодную таблицу можно будет разделить на несколько, провести шардинг.

Подскажите пожалуйста, что можно еще сделать?

Вопрос задан более трёх лет назад
720 просмотров

3 комментария

Подписаться 6 Средний 3 комментария

Евгений Ромашкан @EvgeniiR

Миллион+ это копейки, вопрос тут скорее почему у вас по 60 колонок в одной таблице.

Написано более трёх лет назад
Crash @Bandicoot Автор вопроса

Евгений Ромашкан, нарастание количества записей за сутки идет драматично, поэтому копейки скоро превратятся в рубли, а те в свою очередь десятки и сотни рублей) Нужно решать вопрос с оптимизацией уже сейчас.

Таблиц с таким количеством колонок всего несколько в проекте, тут играет роль специфика (это таблица с заявками от клиентов). У каждой заявки множество специфичных конкретно для нее параметров.

Написано более трёх лет назад
Дима @v_m_smith

попробуйте Column store, например Clickhouse или clustered column Store в MS SQL. ваш миллион сожмется в десяток-сотню мегабайт. они как раз заточены под таблицы с сотнями столбцов. Если сложные джойны не нужны, а достаточно схемы звёзда, то самое то

Написано более трёх лет назад

Решения вопроса 4

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

MySQL

+1 ещё

Средний
Как с помощью SQL запроса выбрать из строки значения и посчитать их уникальное количество?
- 1 подписчик
- 3 часа назад
- 28 просмотров
0

ответов
PHP

+2 ещё

Простой
Здравствуйте! На хосте fornex php сервер не передает данные в БД, хотя на локалке все работало отлично. Как это исправить?
- 1 подписчик
- 23 часа назад
- 49 просмотров
2

ответа
MySQL

Простой
Как проверить на уникальность записи при добавление пачкой через bulk в mysql?
- 1 подписчик
- 08 мая
- 46 просмотров
0

ответов
MySQL

+1 ещё

Простой
Как вывести записи всех подкатегорий через сводную таблицу?
- 1 подписчик
- 07 мая
- 86 просмотров
1

ответ
Веб-разработка

+2 ещё

Средний
Как оптимизировать сервер с большим количеством запросом?
- 4 подписчика
- 07 мая
- 2674 просмотра
6

ответов
MySQL

Простой
Не запускается mysql в openserver, почему?
- 1 подписчик
- 04 мая
- 88 просмотров
0

ответов
MySQL

+1 ещё

Средний
Как выбрать данные без дублей с сортировкой?
- 1 подписчик
- 04 мая
- 96 просмотров
1

ответ
Python

+1 ещё

Простой
Ошибка при асинхронном запросе MYSQL?
- 2 подписчика
- 04 мая
- 287 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как мне доработать код и решить задачу?
- 1 подписчик
- 04 мая
- 97 просмотров
1

ответ
PHP

+2 ещё

Простой
Как решить проблему с php?
- 1 подписчик
- 03 мая
- 165 просмотров
1

ответ
Показать ещё Загружается…

Второй ведущий разработчик (Fullstack, PHP, Laravel, Vue, Mysql)

Donatov.net

от 100 000 до 300 000 ₽

PHP FullStack Developer (Middle+)

ГК «Талант» • Сочи

от 100 000 до 200 000 ₽

Fullstack разработчик

Б2АЙТИ

от 50 000 ₽

Расширение функциональности бекенда (PHP, Yii2)

10 мая 2024, в 14:25

30000 руб./за проект

Ошибка в 1с при обмене товарами с сайтом на Битриксе

10 мая 2024, в 14:14

4000 руб./за проект

Разработка страницы на интранет-портале 1C:Управление сайтом

10 мая 2024, в 14:11

70000 руб./за проект

Миллион+ это копейки, вопрос тут скорее почему у вас по 60 колонок в одной таблице.
Евгений Ромашкан, нарастание количества записей за сутки идет драматично, поэтому копейки скоро превратятся в рубли, а те в свою очередь десятки и сотни рублей) Нужно решать вопрос с оптимизацией уже сейчас.

Таблиц с таким количеством колонок всего несколько в проекте, тут играет роль специфика (это таблица с заявками от клиентов). У каждой заявки множество специфичных конкретно для нее параметров.
попробуйте Column store, например Clickhouse или clustered column Store в MS SQL. ваш миллион сожмется в десяток-сотню мегабайт. они как раз заточены под таблицы с сотнями столбцов. Если сложные джойны не нужны, а достаточно схемы звёзда, то самое то

Answer 1 · 2019-07-17 14:43:17

Объединение нескольких колонок в одну, для однотипных данных. Они будут храниться в формате JSON.

JSON объёмнее плоской таблицы хотя бы из-за необходимости в хранении ключей.
И, насколько знаю, mysql пока умеет только btree. Что подходит для произвольного поиска от слова никак. Только для заранее известного критерия.

3. Партиционирование.

планирую создать новую, "горячую" таблицу с идентичной структурой.

Слово неплохое упомянуто. Осталось понять зачем всё остальное. Партицировать таблицы умеет штатно даже такая удивительная штука как mysql и очень давно.

Профилируйте где время теряете и смотрите что с данными делаете.
Озвученные цифры не впечатляют от слова совсем. Если человек хочет поиграться с разными подходами индексирования и производительностью сложных запросов - я посоветую с миллиона записей только начинать.

Типичная ошибка - пытаетесь строить аггрегаты и прочие count(*) поверх миллионов строк налету.

Answer 2 · 2019-07-17 14:50:22

Crash,

У каждой заявки множество специфичных конкретно для нее параметров.

значит вся "специфика" должна быть вынесена в отдельную таблицу. А херачить на каждый чих колонку - решение такое себе, по многим соображениям.

1. Индексы, выборочно для полей, по которым чаще всего осуществляется поиск.

скорее для групп полей, по которым осуществляется поиск, выборка, объединение и сортировка. Кроме того - explain, slow log.

2. Объединение нескольких колонок в одну, для однотипных данных. Они будут храниться в формате JSON.

только если по ним не идет поиск, иначе это нифига не оптимизация, а скорее наоборот.

В остальном мысли о разделении на грячий/холодный стек верные. Можно задуматься еще о переносе части горячих строчек в какой-то мемори сторэйж типа редиса.

Answer 3 · 2019-07-17 15:02:01

Сравнить колонки в таблице и в частых запросах в ней. Оставить в таблице только то, по чему могут быть запросы, скорость которых критична. Желательно оставить только поля фиксированной длины. Остальное - во вспомогательную таблицу, выборка из которой будет редкой либо только по id.

Answer 4 · 2019-07-17 15:03:55

Интерфейс работы с ней начал подтормаживать, в связи с чем сейчас занимаюсь оптимизацией.

Начните с активации slow query log и его анализа, с помощью pt-query-digest (https://www.percona.com/blog/2018/10/15/identifyin... например.
Кол-во записей в таблице не проблема, как правильно сказал Melkij.

Answer 5 · 2019-07-17 18:52:21

Какие есть годные практики для работы с большим количеством записей в таблице (миллион+)?

Большим?
Для современных компьютеров (даже слабеньких смартфонов) - это мизерное количество.

Индексы называется решение.

Не должно тормозить на ваших объемах.
Индексы не правильные. Или запросы.

Или вообще проблема не в БД, а уже после нее.

Сделать explain, посмотреть что там неэффективного.

И, важный момент, выборка данных должна фильтроваться средствами СУБД.
Отдаваться из СУБД на дальнейшую обработку в вашей программе должен мизер.

Партиционирование.

Вы это серьезно? На смешном миллионе записей?

Объединение нескольких колонок в одну, для однотипных данных. Они будут храниться в формате JSON.

Вообще никак не повлияет. Если только речь не идет о сотнях колонках, объединенных в одну.

Индексы, выборочно для полей, по которым чаще всего осуществляется поиск.

А вы уже знаете "насколько именно чаще"?
С цифрами?
Замеры провели?

Какие есть годные практики для работы с большим количеством записей в таблице (1M+)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт