Помощь в проектировании распределенной архитектуры

Question

Антон Марцен @martsen

Программист-дроновод

Помощь в проектировании распределенной архитектуры

Здравствуйте!

Сейчас стоит задача построения распределенного хранилища. Исходные данные: 1) несколько (5 и более) гетерогенно-распределенных площадок 2) каждая площадка генерирует гигабайты/терабайты контента (текст, аудио, видео, записи в разные БД) 3) пользователям для работы нужны данные со всех площадок в равной степени 4) необходимо организовать быстрый поиск по всем файлам, а в будущем построить систему для анализа данных 5) нужна высокая доступность и отказоустойчивость

Сейчас планируем собирать все эти данные в одно единое хранилище, с которым смогут все работать.

Пока понемногу изучаю эту тему и стоит выбор технологии, которую будем использовать. Склоняюсь к развертыванию hadoop, т.к. HDFS и есть возможность разработать необходимый софт.

Вопросы: 1) Оптимален ли выбор Hadoop? Может есть какие-либо другие подходящие технологии? 2) Сейчас данные лежат на разных серверах. Надо будет все это переносить в HDFS или можно как-то "натравить" hadoop на имеющиеся данные без их переноса? Что делать с данными, которые лежат в реляционных БД? Надо будет каждый раз через какой-нибудь SQOOP тянуть их в HDFS для последующей обработки? В общем, надо ли запасаться еще целой кучей жестких дисков?

Буду благодарен за ответы, критику и ссылки на полезные статьи и публикации по этой теме.

Вопрос задан более трёх лет назад
2897 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 3

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Linux

+1 ещё

Простой
Чем отличается дата создания файла и его изменения?
- 1 подписчик
- час назад
- 33 просмотра
1

ответ
Хранение данных

Простой
Синхронизация отдельных файлов из разных папок с облаком без симлинков?
- 1 подписчик
- 18 апр.
- 38 просмотров
1

ответ
Хранение данных

+4 ещё

Средний
Есть ли файловое хранилище аналогичное NextCloud с другой структуризацией?
- 2 подписчика
- 17 апр.
- 127 просмотров
2

ответа
Python

+1 ещё

Простой
Как хранить большие объёмы текста?
- 1 подписчик
- 07 апр.
- 188 просмотров
1

ответ
Хранение данных

Средний
Проверка файлов в папке на целостность?
- 1 подписчик
- 05 апр.
- 57 просмотров
1

ответ
Книги

+1 ещё

Простой
Какие книги можно почитать новичку о хранилищах данных?
- 3 подписчика
- 03 апр.
- 191 просмотр
0

ответов
Хранение данных

Сложный
Хранится ли в файле(скрин, фото, картинка) информация о его редактировании (ретушь, обрезка и тд)?
- 1 подписчик
- 27 мар.
- 95 просмотров
2

ответа
Юриспруденция в IT

+1 ещё

Простой
Как сохранить в общественном доступе фото (видео) с гарантией его неизменности?
- 1 подписчик
- 27 мар.
- 115 просмотров
3

ответа
C

+1 ещё

Простой
Есть ли задача на распределенные вычисления, которую легко проверить?
- 3 подписчика
- 14 мар.
- 275 просмотров
4

ответа
Веб-разработка

+1 ещё

Средний
Как реализовать хранение изображений отдельно от кода и запрос нужного размера на лету?
- 6 подписчиков
- 14 мар.
- 2840 просмотров
6

ответов
Показать ещё Загружается…

Аналитик данных

Bogoda Digital Pro • Сан-Хосе

от 999 до 999 ₸

Разработчик баз данных PostgreSQL

Объединенные системы управления транспортом • Москва

До 220 000 ₽

DBA / Администратор баз данных PostgreSQL

СберТех • Москва

от 320 000 ₽

Сделать не сложного telegram bot

20 апр. 2024, в 14:27

3000 руб./за проект

Настроить рекламу в VK

20 апр. 2024, в 13:56

7000 руб./за проект

Настроить рекламу в Авито

20 апр. 2024, в 13:52

7000 руб./за проект

Answer 1 · 2013-11-14 18:54:59

Мы используем Cassandra. Минусы: сложно поддерживать, сложно работать с ней.

Hadoop в принципе не зависит от типа хранилища. YARN (их Map/Reduce 2.0) позволяет работать на любых данных.

Answer 2 · 2013-12-09 13:56:26

joann @joann

Посмотрите Spark (spark.incubator.apache.org) и Hadoop от MapR

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2014-08-20 23:23:07

Вопросы делают цели проекта более мутными.
С одной стороны вы говорите, что "нужна высокая доступность и отказоустойчивость", а потом идет вопрос "Сейчас данные лежат на разных серверах. Надо будет все это переносить в HDFS или можно как-то "натравить" hadoop на имеющиеся данные без их переноса?"

Соответственно производные вопросы:
* Эти данные и сервисы доступа к данным в гетерогенных площадках сами удовлетворяют требованиям доступности и отказоустойчивости?
* Интерфейсы доступа к площадкам из Hadoop-а (или аналога) удовлетворяют требованиям доступности и отказоустойчивости? Не возникает ли тут обычная проблема надежности систем с распределенными данными (data federation)?

Если не удовлетворяют, то логично концентрироваться на централизованном хранении в hadoop и соответственно сливе туда всех данных.
Если удовлетворяют, то разумным кажется комбинированное решение, состоящее из трех подсистем:
* Индексирование - обеспечение быстрого поиска по неструктурированным данным. Посмотрите SolrCloud, например, как составная часть Hadoop от Cloudera. Индексировать можете данные прямо из источников.
* Виртуализация данных - система, предоставляющая единый вид табличных данных над совокупностью разнородных распределенных баз данных (хоть в облаках). Нужно для детального drill-down анализа без необходимости перетаскивать все в центральное хранилище (Hadoop?). По-моему, такие решения есть у SAS, у SAP BI, Red Hat JBoss Data Virtualization
* BigData analysis - система, позволяющая делать анализ очень больших объемов. Здесь может быть и Hadoop. Ключевая особенность - в эту систему вы перетаскиваете только те очень большие данные, которые вам действительно нужно анализировать. А не все подряд.

Ну и не будем забывать, что в Hadoop не очень удобно хранить video/audio данные. На HDFS слишком много файлов не положите (есть ограничение по кол-ву файлов), а если файлы не большие, то отнимать будут они все-равно блоки по 256Мб (да умножить на 3). Если наоборот будете класть большие файлы в HBase, например, то, насколько мне известно, он не поддерживает потоковой передачи данных из бинарного поля - читать придется всегда весь массив байт одного видео материала. ИМХО, для этих целей больше подходят объектные хранилища, типа Swift (OpenStack). Хотя все зависит от сценариев использования.

Помощь в проектировании распределенной архитектуры

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт