@iskinn
database administrator

Где хранить сырые данные из внешних источников?

Нужно собирать и хранить сырые данные из внешних источников. Данные такие: выгрузка из api яндекс-метрики, гугл-аналитика, еще несколько похожих источников. Эти данные нужно собирать и хранить пока работает компания, чтобы из них делать выборки для аналитиков, заливать в OLAP ClickHouse хранилище нужные данные, обрабатывать их и показывать в PowerBI. Объем данных маленький: в день примерно 10-15т строк по-каждому источнику. За 3 года примерно 40Гб. Соответственно, продукты hadoop здесь не подходят, не тот объем.

Сам думал куда можно загружать, варианты: csv файлы за каждый день - не удобны для дальнейшего использования, если нужно поисследовать накопленное, сделать запросы, что то поискать; mongodb - почему то многие боятся ее использовать, еще варианты cassandra, elasticsearch, clickhouse. Облачные сервисы пока, что в компании не используются.

Для меня важно, чтобы это хранилище было надежным, была возможность иногда делать запросы на поиск. Опыта в хранении пока что очень мало. Подскажите, что лучше подходит для такой задачи.

Всем заранее спасибо за ответы.
  • Вопрос задан
  • 355 просмотров
Решения вопроса 1
dimonchik2013
@dimonchik2013
non progredi est regredi
в Кликхаус и храните

там же и скопировать можно, и по партитициям, сам сжимает - зачем изобретать?
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 1
inoise
@inoise
Solution Architect, AWS Certified, Serverless
Храните в виде json файлов в AWS s3 и используйте для OLAP - AWS Athena. Место почти не занимает, SQL всеми любимый будет, работает достаточно шустро и Serverless, что значит что оплата только за то что используется
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы