Проектирования СУБД для хранения больших объемов?

Question

egorov_a @egorov_a

Проектирования СУБД для хранения больших объемов?

Столкнулся с проблемой проектирования БД для большого массива данных, речь про миллиарды записей(на данный момент 200млн). Стандартные решения на таких объемах начинают деградировать по скорости вставки/чтения(очень важно).
Приемлемое время отклика до 20 сек, конечно чем быстрее - тем лучше.
Данные хранятся в одном ЦОДе. Сейчас 10-50 запросов/сек. В ближайщем будующем около 100запр/сек.

В данный момент используется MongoDB. Стурктура данных выглядит след образом(буду писать в терминах монги) - документе порядка 80 полей, с типом string, datetime, int, float, null, boolean. У записи есть уникальный ключ, с типом string(длиной в 30 символов). Поиск осуществляется по 30 полям и их возможным комбинациям. Необходимо читать в режиме реалтайм и делать всевозможные агрегационные операции с данными. На таких данных очень долго выполняется операция count.

Хотелось бы узнать какие используются подходы для реализации данной задачи?
Услышать хороший совет по организации и структуре данных.

Вопрос задан более трёх лет назад
944 просмотра

11 комментариев

Подписаться 9 Средний 11 комментариев

Иван Шумов @inoise

В каких операциях деградация?

Написано более трёх лет назад
egorov_a @egorov_a Автор вопроса

Иван Шумов, долго выполняется группировка по определенным полям.
Например, запрос агрегации - фильтрация выдает ~ 17млн записей(30сек) + операция агрегации, по сути подсчет count для агрегационной группы(40сек).
А то может и дольше.

Написано более трёх лет назад
Иван Шумов @inoise

egorov_a, ну так это же аналитика (OLAP) на которую такие базы данных не подходят. Тут лучше применить колоночную базу

Написано более трёх лет назад
egorov_a @egorov_a Автор вопроса

Иван Шумов, да уже есть некоторые наработки с комбинацией двух баз OLAP+OLTP.
Хотелось бы услышать какие решения вы использовали в своей практики?

Написано более трёх лет назад
Иван Шумов @inoise

egorov_a, разные, в зависимости от задачи. Я в основном по AWS, но если нужен on prem то всегда есть Clickhouse, Cassandra, Snowflake

Написано более трёх лет назад
egorov_a @egorov_a Автор вопроса

Иван Шумов, да знаем про такое, пробовали. Для OLTP что используете?

Написано более трёх лет назад
Иван Шумов @inoise

egorov_a, в основном пресловутый MySQL, в клауде Aurora. Если не нужна реляционка то DynamoDB

Написано более трёх лет назад
egorov_a @egorov_a Автор вопроса

Иван Шумов, понятно, спасибо :)

Написано более трёх лет назад
Илья @sarapinit

egorov_a, было бы проще если бы описали сами данные (в терминах реального мира) и типовые запросы к ним. Потому что в большинстве случаев оптимизация идет под конкретный запрос.

Написано более трёх лет назад
egorov_a @egorov_a Автор вопроса

Илья, вся проблема состоит в том что нет конкретных запросов. Сейчас один пользователь хочет фильтровать по атрибуту А1, второй хочет узнать сколько было данных в определенный диапазон(например за последний месяц), другой делает выборку по комбинации полей + дата.
Для других задач нужно агрегировать по определенным правилам, порядка 30 типов различных агрегаций, со всевозможной фильтрацией.

Написано более трёх лет назад
Илья @sarapinit

egorov_a, нет конкретных запросов — нет конкретных решений. Поэтому я и просил описать предметную область. Нужно делать партиции, причем функцию партицирования выбирать с умом. А если не хватает, то шардировать. Для запросов которые не вписываются можно дублировать данные в другую БД. Либо все-таки разделить данные на 2 хранилища: OLTP и OLAP, например держать в Mongo последний месяц, а за все время держать ClickHouse или еще чего. В любом случае нужно сначала отойти от постановки задачи "НАМ ВАЖНО ВСЕ И СРАЗУ" к "У НАС ЕСТЬ ИЕРАРХИЯ ЗАПРОСОВ ПО ВАЖНОСТИ"

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 6

3 комментария

egorov_a @egorov_a Автор вопроса

Денормализованная SQL таблица на 80 столбцов покажет хорошую производительность?
Вериться с трудом. Думаю будет производительность близкая к MongoDB.

Написано более трёх лет назад
Олег Фролов @Digiport

Не все же 80 столбцов нужны для поиска. Оставите свои 30 поисковых столбцов столбцами, проиндексировав их вдоль и поперёк, а остальное сверите в JSON и храните в одном мета-поле.

Написано более трёх лет назад
Олег Фролов @Digiport

Не подумайте, что я фанат реляционной модели данных, я наоборот поклонник постреляционных многомерных СУБД. Просто данное заявление сделал в силу того, что некоторое время назад общался с программером из большой компании, который и сказал, что Mongo у них не показала должной призводительности на реалтайме, поэтому они используют реляционных подход. Запросов у них десятки тысяч в секунду...

Написано более трёх лет назад

9 комментариев

egorov_a @egorov_a Автор вопроса

Для современного железа и современного СУБД - это ерунда.

Пожалуйста конкретизируете что вы понимаете под современном железом. Задача стоит с минимальными ресурсами добиться максимально производительности.

Для чтения - индексы.
Для вставки - bulk loading

Конечно, это все давно используется.

Это троллинг?

Нет это не тролинг, речь идет о тяжелых агрегационных запросов для сотем милионов записей. Для обычной операции поиска желаемое время до 5сек

Индексы по полям и комбинациям.

Как говорил раньше индексы есть, как single так и сompound.

Написано более трёх лет назад
zavodp @zavodp

egorov_a,
Пожалуйста конкретизируете что вы понимаете под современном железом. Задача стоит с минимальными ресурсами добиться максимально производительности.

Не думаю. Тут скорее или исполнитель или заказчик не правильно поняли/сформулировали.
Дело в том, что можно заставить летать хоть и на RapsberryPi, но стоимость разработки будет столь велика, что никакое дешёвое железо не окупится.
проверил тут https://ruweb.net/vds на тарифе KVMz-MINI том, что за 480 рублей в месяц.
У меня прямо сейчас тянет до 5000 запросов к СУБД PostgreSQL в секунду.
Размер СУБД - 50 Г

Написано более трёх лет назад
zavodp @zavodp

egorov_a,

Для чтения - индексы.
Для вставки - bulk loading

Конечно, это все давно используется.

1) Индексы должны быть не от балды, а соответствовать запросам. См. план запроса - а используются ли вооще индексы.
2) Не верю.

Написано более трёх лет назад
zavodp @zavodp

egorov_a,
Нет это не тролинг, речь идет о тяжелых агрегационных запросов для сотем милионов записей. Для обычной операции поиска желаемое время до 5сек

Агрегацию еще могу поверить.
Но если у вас время простого поиска исчисляется в секундах - что-то вы не так делаете.

См. план запроса.

Написано более трёх лет назад
zavodp @zavodp

egorov_a,
Как говорил раньше индексы есть, как single так и сompound.

А вот теперь проверяйте - используются ли индексы.
См. план запроса: https://docs.mongodb.com/manual/core/query-plans/

Написано более трёх лет назад
egorov_a @egorov_a Автор вопроса

zavodp, план запроса я смотрел - при чтение индексы используются. Оптимизировал некотрые запросы, путем добавления составного индекса.
Дело в том что на каждый запрос фильтрации , по мимо самих данных, необходимо отдавать общий count для всей выборки.

2) Не верю.

ваше право ;)

Написано более трёх лет назад
zavodp @zavodp

egorov_a,
необходимо отдавать общий count для всей выборки.

А это только кэшировать.
Или заранее расчитывать.
С count все СУБД долго работают.

Написано более трёх лет назад
egorov_a @egorov_a Автор вопроса

zavodp, count кешируется в redis с ttl. Первый запрос все равно выполняется долго.

Или заранее расчитывать.

Как я понимаю это расчет для целевых запросов? Весь массив всевозможных комбинаций входных параметров невозможно покрыть(и это неправильно).

Написано более трёх лет назад
zavodp @zavodp

egorov_a,
Как я понимаю это расчет для целевых запросов? Весь массив всевозможных комбинаций входных параметров невозможно покрыть(и это неправильно).

Правильно или не правильно зависит от ваших потребностей.
Если нужно чтобы было очень быстро - то это нормально.

Не обязательно рассчитывать сразу итоговые числа.
Можно рассчитать по частичным срезам, чтобы потом эти данные использовать для итоговых окончательных расчетов.

Написано более трёх лет назад

2 комментария

5 комментариев

egorov_a @egorov_a Автор вопроса

Делали подобное, но со связкой clickhouse + hbase. Работало быстро, но и ресурсов сжирало немерено. Думаю над тем что бы использовать MongoDB как key-value.

Написано более трёх лет назад
zavodp @zavodp

egorov_a,
Думаю над тем что бы использовать MongoDB как key-value.

Если у вас по множеству полей выборка, да еще и с агрегацией - то движки key-value плохо с этим работают.

Написано более трёх лет назад
egorov_a @egorov_a Автор вопроса

zavodp, агрегацию и поиск выполнять на OLAP БД, потом лезть в key-value. Это я имел ввиду.

Написано более трёх лет назад
zavodp @zavodp

egorov_a,
агрегацию и поиск выполнять на OLAP БД, потом лезть в key-value. Это я имел ввиду.

А с поиском - OLAP плохо работает.
При этом key-value по индексированным ключам отлично ищет.

Написано более трёх лет назад
Дима @v_m_smith

zavodp, по индексированным ключам все отлично ищут

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Проектирование баз данных

Средний
Можно ли создать базу данных на одной таблице?
- 2 подписчика
- 14 апр.
- 400 просмотров
3

ответа
MongoDB

Простой
Как упростить запрос к БД?
- 1 подписчик
- 12 апр.
- 79 просмотров
1

ответ
MongoDB

Простой
Как проверить данные перед записью в mongoDB?
- 1 подписчик
- 12 апр.
- 44 просмотра
1

ответ
Python

+4 ещё

Простой
Как проверить наличие id в строке файла .txt на python?
- 1 подписчик
- 11 апр.
- 81 просмотр
0

ответов
MongoDB

Средний
Как сделать выборку из двух коллекций в MongoDB?
- 1 подписчик
- 10 апр.
- 44 просмотра
0

ответов
Python

+1 ещё

Простой
Ка решить проблему с тем, что MongoClient не может подключиться к MongoDB Altus?
- 2 подписчика
- 07 апр.
- 385 просмотров
1

ответ
MySQL

+1 ещё

Средний
Какой подход к хранению данных выбрать?
- 1 подписчик
- 05 апр.
- 116 просмотров
1

ответ
Проектирование баз данных

Простой
Как лучше организовать структуру БД?
- 1 подписчик
- 30 мар.
- 104 просмотра
2

ответа
Проектирование баз данных

Простой
Обновление/Вставка в несколько таблиц данные одним запросом?
- 1 подписчик
- 21 мар.
- 81 просмотр
2

ответа
Python

+1 ещё

Простой
Ошибка с pymongo?
- 1 подписчик
- 19 мар.
- 57 просмотров
0

ответов
Показать ещё Загружается…

Backend Developer (Node.js), Remote 🔥

Fundraise Up

от 3 800 до 6 300 $

Senior Backend-разработчик (NestJS)

Эволюшн менеджмент

от 200 000 до 300 000 ₽

Опытный Golang-разработчик

Finandy

от 5 000 $

Настроить замки Omnitec для отеля, 12 замков

17 апр. 2024, в 21:41

30000 руб./за проект

Дизайнер

17 апр. 2024, в 21:40

500 руб./за проект

Девопс

17 апр. 2024, в 21:39

2000 руб./за проект

Иван Шумов, долго выполняется группировка по определенным полям.
Например, запрос агрегации - фильтрация выдает ~ 17млн записей(30сек) + операция агрегации, по сути подсчет count для агрегационной группы(40сек).
А то может и дольше.
egorov_a, ну так это же аналитика (OLAP) на которую такие базы данных не подходят. Тут лучше применить колоночную базу
Иван Шумов, да уже есть некоторые наработки с комбинацией двух баз OLAP+OLTP.
Хотелось бы услышать какие решения вы использовали в своей практики?
egorov_a, разные, в зависимости от задачи. Я в основном по AWS, но если нужен on prem то всегда есть Clickhouse, Cassandra, Snowflake
Иван Шумов, да знаем про такое, пробовали. Для OLTP что используете?
egorov_a, в основном пресловутый MySQL, в клауде Aurora. Если не нужна реляционка то DynamoDB
egorov_a, было бы проще если бы описали сами данные (в терминах реального мира) и типовые запросы к ним. Потому что в большинстве случаев оптимизация идет под конкретный запрос.
Илья, вся проблема состоит в том что нет конкретных запросов. Сейчас один пользователь хочет фильтровать по атрибуту А1, второй хочет узнать сколько было данных в определенный диапазон(например за последний месяц), другой делает выборку по комбинации полей + дата.
Для других задач нужно агрегировать по определенным правилам, порядка 30 типов различных агрегаций, со всевозможной фильтрацией.
egorov_a, нет конкретных запросов — нет конкретных решений. Поэтому я и просил описать предметную область. Нужно делать партиции, причем функцию партицирования выбирать с умом. А если не хватает, то шардировать. Для запросов которые не вписываются можно дублировать данные в другую БД. Либо все-таки разделить данные на 2 хранилища: OLTP и OLAP, например держать в Mongo последний месяц, а за все время держать ClickHouse или еще чего. В любом случае нужно сначала отойти от постановки задачи "НАМ ВАЖНО ВСЕ И СРАЗУ" к "У НАС ЕСТЬ ИЕРАРХИЯ ЗАПРОСОВ ПО ВАЖНОСТИ"

Answer 1 · 2019-12-03 03:31:44

Олег Фролов @Digiport

PHP рулит

Говорят, именно в таких случаях реляционные БД показывают своё преимущество.

Ответ написан более трёх лет назад

3 комментария

Answer 2 · 2019-12-03 09:53:39

для большого массива данных, речь про миллиарды записей(на данный момент 200млн).

Это никакие не "большие данные".
Для современного железа и современного СУБД - это ерунда.

Стандартные решения на таких объемах начинают деградировать по скорости вставки/чтения(очень важно).

Для чтения - индексы.
Для вставки - bulk loading

Приемлемое время отклика до 20 сек, конечно чем быстрее - тем лучше.

Это троллинг?
Или вы нам пишете из 1960 годов?

Данные хранятся в одном ЦОДе. Сейчас 10-50 запросов/сек. В ближайщем будующем около 100запр/сек.

Это не нагрузка вообще. Смешно.

В данный момент используется MongoDB. Стурктура данных выглядит след образом(буду писать в терминах монги) - документе порядка 80 полей, с типом string, datetime, int, float, null, boolean. У записи есть уникальный ключ, с типом string(длиной в 30 символов). Поиск осуществляется по 30 полям и их возможным комбинациям. Необходимо читать в режиме реалтайм и делать всевозможные агрегационные операции с данными. На таких данных очень долго выполняется операция count.

Индексы.
А для агрегаций - подготовленные данные использовать. Count - всегда медленно, поскольку это полный перебор. Считать заранее, сохранять во вспомогательных данных.
Смысла нет использовать MongoDB, если только вы не собираетесь это по огромному кластеру размазывать. Там и будет преимущество Монги.
На 1-2-3 серверах классические реляционные СУБД типа PostgreSQL имеют преимущество перед Mongo.

Поиск осуществляется по 30 полям и их возможным комбинациям

Индексы по полям и комбинациям.
См. план запроса чтобы понять какие именно индексы нужны.

Answer 3 · 2019-12-03 08:35:27

Сергей @begemot_sun

Программист в душе.

ClickHouse рассмотрите

Ответ написан более трёх лет назад

2 комментария

Answer 4 · 2019-12-03 09:54:31

Можно вынести поиск в elasticSearch, который будет возвращать идентификаторы документов, а уже по ним быстро доставать документы из монги.

Ну и про OLAP вам уже написали

Answer 5 · 2019-12-03 09:10:01

За MongoDB не скажу. Но общее направление очевидно:
- планы запросов (используются ли индексы? или перебирается вся таблица?)
- дисковые операции (возможно, имеет смысл купить SSD с лучшим показателем IOPS).
- масштабирование (организовать несколько slave-реплик и распределять "поисковую" нагрузку между ними)
- денормализация (создать поля и таблицы со "вторичными" данными; например, с количеством товаров; тогда, возможно, удастся обойтись без операций count или сократить кол-во этих операций)
- логика приложения (возможно, без каких-то операций можно обойтись)

Answer 6 · 2019-12-04 01:25:09

Я бы тоже смотрел в сторону Clickhouse или другой column-store СУБД (вместо того, чтобы делать классическую DWH-снежинку).
Ради прикола еще я бы попробовал записать эту таблицу "порядка 80 полей" в партиционированный Parquet и вычитывал бы столбцы в таблицы Apache Arrow по мере необходимости (с языком обвязки по вкусу, там кажется все языки есть). Думаю производительность будет сравнима с Clickhouse, ну или уж точно лучше MongoDB. Вот бенчмарки двухлетней давности. Если кластера не надо, то и Spark там не нужен.

Проектирования СУБД для хранения больших объемов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт