Какое подобрать хранилище 3 триллионов событий?

Нужно подобрать хранилище в которое будет поступать большой объем однотипных событий (до 3 миллионов в секунду).
Глубина хранения 1 месяц - это примерно 3 триллиона событий.
Выборка событий будет происходить с использованием фильтров по полям в среднем раз в секунду.
Соответственно хранилище должно уметь горизонтально масштабироваться на 100-1000 узлов, быть надежным и проверенным решением, быть устойчивым к отказам узлов, делать быстро выборку по разным критериям с возможностью сортировки, поддерживать java клиента.
  • Вопрос задан
  • 4173 просмотра
Пригласить эксперта
Ответы на вопрос 8
dimonchik2013
@dimonchik2013
купил глушилку мабил: теперь в маршрутке тишина
Yandex Clickhouse (тут на веру Яндексу только, зато как раз под задачу)
Aerospike
еще начать можно с DynamoDB, там готово все, только плати

только с 3 трлн и 5-10 сек очень не уверен, так или иначе придется что-то предобрабатывать
Ответ написан
@Tsimur_S
Tarantool и AeroSpike ? Или возможно стоит посмотреть в сторону time series database?
https://www.influxdata.com/influxdb-vs-cassandra-b...
Может ещё кассандра справится с безумным количеством серверов, но вообще больше миллиона записей в секунду это на данный момент слабо реализуемо.
Ответ написан
@lega
Скорость ssd до 550Mb/sec, если события по 20б, то можете по файликам разливать ~27 млн событий в сек (одного канала не хватит чтобы нагрузить)

Выборка событий будет происходить с использованием фильтров по полям в среднем раз в секунду.
Разливайте в "доль" фильтров и будет норм.
Ответ написан
@ELazin
Akumuli может записывать 4.5 миллиона событий в секунду на единственном m3.2xlarge инстансе (если события представимы в виде комбинации набора тегов, метки времени и числа с плавающей точкой).
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы