Как хранить и искать в 10 миллиардах записей?

Question

Андрей @Morfi

Как хранить и искать в 10 миллиардах записей?

Есть 500 миллиардов записей, каждая запись это немного чисел и немного текста.
Это все поделено на N количество частей по примерно 10 миллиардов.

На данный момент 10 миллиардов хранятся в одном файле (около 5 Тб). К этому файлу есть несколько индексов, бинарные файлы (ключ -> офсет в файле с данными), отсортированные по ключу, поэтому поиск получатся довольно простой.

Главная проблема в том что часто приходят новые данные, N миллионов в день, и при добавлении в файл индекса этих записей файл индекса приходиться весь переписывать а это около 500 гб. И так каждый индекс а их несколько на каждую часть. Это получается долго.

Как обычно решают такие проблемы? Как хранить больше индексы? Может есть какая то дб способная вмещать себя столько с с несколькими индексами и сортировками.

Вопрос задан более трёх лет назад
4636 просмотров

Комментировать

Подписаться 6 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 4

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

C++

+1 ещё

Простой
Возможно ли сделать nested enum c/c++?
- 1 подписчик
- 4 часа назад
- 17 просмотров
1

ответ
C

+1 ещё

Простой
Как отправить запрос на терминал Vendotek?
- 2 подписчика
- вчера
- 170 просмотров
0

ответов
C++

+2 ещё

Средний
Как сделать маштабирование относительно центра экрана?
- 1 подписчик
- вчера
- 64 просмотра
0

ответов
C

+1 ещё

Простой
Как вывести значение указателя без иннициализации?
- 1 подписчик
- 12 апр.
- 104 просмотра
4

ответа
C

+1 ещё

Простой
Можно использовать файл .ino для работы на устройствах Orange pi?
- 1 подписчик
- 11 апр.
- 54 просмотра
2

ответа
PostgreSQL

+1 ещё

Средний
С чем может быть связана высокая нагрузка на сервер Postgres?
- 2 подписчика
- 11 апр.
- 186 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Чем можно проанализировать дедлоки?
- 3 подписчика
- 10 апр.
- 215 просмотров
3

ответа
C

Простой
Как из массива байтов HEX сделать сделать DEC?
- 1 подписчик
- 09 апр.
- 92 просмотра
2

ответа
C

+1 ещё

Простой
Доступ к массиву объявленному в ассемблере из Си?
- 2 подписчика
- 09 апр.
- 985 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как перенести большую базу на другой сервер без простоев?
- 4 подписчика
- 08 апр.
- 1808 просмотров
3

ответа
Показать ещё Загружается…

Разработчик баз данных PostgreSQL

Объединенные системы управления транспортом • Москва

До 220 000 ₽

DBA / Администратор баз данных PostgreSQL

СберТех • Москва

от 320 000 ₽

Программист C++ Builder / базы данных MySQL

RU Electronics • Москва

от 180 000 до 200 000 ₽

Исправить адаптивную верстку на Tilda Zero Block

20 апр. 2024, в 06:39

4000 руб./за проект

Доработка аддона для Xenforo v2.2.13

20 апр. 2024, в 06:06

200 руб./за проект

Привязка к Маркетплейсам 1С Розница 2.3

20 апр. 2024, в 05:26

10000 руб./за проект

Answer 1 · 2012-11-14 22:53:16

Умный ответ в стиле «отстаньте» — hadoop.

Если же думать как решить — если проблем с производительностью нет и 5Тб одним файлом устраивает, то надо просто использовать деревья для хранения индекса и обновлять индексы только на порцию пришедших данных.

Вот простейший пример индекса: ключ превращем в хеш (не важно как, либо 1-в-1, либо md5 от него и младшие биты), после этого делаем каталоги с именем первого байта хеша, в нём каталоги с вторым байтом и т.д., до тех пор, пока не остаётся что-то очень компактное. В момент добавления данных при их индексации просто обновляется маленькая порция тех кусочков индекса, которые поменялись.

Это решение «на коленке», если что-то крутое — смотрите в сторону специализированных баз данных.

Answer 2 · 2012-11-14 23:20:23

Для подобных задач иногда подходит такая идея: разделить базу на части(пакеты), и запросы к ним делать независимо, и потом объединять результаты
Например — отдельно хранить данные за последние дни с воскресения по пакету на один день, раз в 7 дней объединяя всю базу в один пакет.

Если нужен поиск по ключу — обращаться к пакетам в порядке возрастания «возраста» базы.
Если нужны отсортированные данные — то после поиска нужно данные «слить» с перекрыванием более старых записей новыми.

Более умная стратегия — объединять пакеты по степенному закону. Те пакеты бывают только на 2^i дней.

Answer 3 · 2012-11-14 23:03:14

Посмотрите в сторону LucidWorks Big Data. Сам я правда с ней не работал, но с LucidWorks Search работаю и пока проблем нет (~15гб, 10кк документов).

Answer 4 · 2012-11-15 19:16:38

Я думаю, стоит попробовать Cassandra. Она умеет не только очень быстро искать по первичному ключу, но и по вторичному www.datastax.com/docs/1.0/ddl/indexes

Как хранить и искать в 10 миллиардах записей?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт