Как следует организовать базу и поиск по 1 000 000 000 000 (триллиону) записей на 100ТБ?

Question

ruboss @ruboss

Как следует организовать базу и поиск по 1 000 000 000 000 (триллиону) записей на 100ТБ?

Всем привет, делаю проект связанный с распознаванием образов, подошел к проблеме очень интересной, думаю не только мне - поиск по огромным данным

В базу идут хэши, пока не знаю точной длины, думаю 32-64 символа utf-8.
С одного изображение будет примерно 5000 хэшей. Поскольку изображений будет очень много (ну реально очень много, как по мне) 720 000 000 (720 миллионов), то придется осуществлять поиск по более чем 1 триллиону записей, которые в свою очередь будут занимать примерно 100ТБ.
Как можно спроектировать структуру, что бы она была расширяема и вообще работала в таких условиях?
По идее поиск по хэшам должен быть за O(1), потащит ли MySQL?
В какую сторону копать? Спасибо!

Вопрос задан более трёх лет назад
5045 просмотров

12 комментариев

Подписаться 25 Оценить 12 комментариев

Сергей Протько @Fesor

а могли бы вы уточнить, в чем смысл? Искать изображение ко хэшам фич? В любом слуае 100Тб это очень много, я бы брал какую-нибудь касандру для этого.

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Сергей Протько: да, по хешам фич, что-то типа LSH https://en.wikipedia.org/wiki/Locality-sensitive_h...

Написано более трёх лет назад
Сергей Протько @Fesor

ruboss: интересная задача у вас, завидую слегка) Я правильно понимаю что вы таким образом хотите организовать поиск похожих изображений?

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Сергей Протько: совершенно верно! Если вам интересно, советую ознакомится на досуге - habrahabr.ru/company/yandex/blog/258573

Написано более трёх лет назад
Антон @Largo1

Сергей Протько: да это просто заказ на госзакупках - разработка системы автоматического распознавания по морде лица и не только) включая собак и кошек)

Написано более трёх лет назад
sim3x @sim3x

зачем в данной схеме БД?

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

sim3x: Как предлагаете осюществлять поиск? Используя файловую систему?

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Антон: заказ на распознавание грудей от 3го размера и больше xD

Написано более трёх лет назад
sim3x @sim3x

ruboss: именно

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

sim3x: интересно. Т.е просто создаются файлы с названием хэша и значениями внутри файла? Как лучше сделать, больше серверов с меньшими обьемами памяти или все на одном сервере?

Написано более трёх лет назад
sim3x @sim3x
ruboss:
$ cat /7d690f663338a870c80d7d81997cd569778cd66b e56bcb767ea690afc5e0c6a382f5948267f8893f

файл с названием хеша какой-то области в себе содержит хеш-как-имя изображения

Как делать? Все зависит от финансов и нагрузок. Можно и на одной, если дисков хватит
Если делать шардирование, то нужно будет выделить пару машин под маршрутизаторы-баллансеры запросов

Не стоит так зацикливаться на бд с самого начала
Написано более трёх лет назад
ruboss @ruboss Автор вопроса

sim3x: спасибо

Написано более трёх лет назад

Решения вопроса 2

2 комментария

5 комментариев

ruboss @ruboss Автор вопроса

elastic search очень даже хорош по отзывам

Написано более трёх лет назад
Макс @MaxDukov

+100500

Написано более трёх лет назад
Юрий Ярош @voidnugget

ruboss: elasticsearch очень-очень плохо масштабируется. Сам возился с кластером с 16ти машин, и как одна из нод падает каждую неделю по 2-3 раза. Лучше сразу брать Solr и реализовывать нужный функционал в рамках приложения.

Написано более трёх лет назад
Леша Киселев @Yakud

Юрий Ярош: По каким причинам подают ноды? У меня было подобное вначале, все решилось пересмотром архитектуры кластера и его настройкой. Сейчас работает ~пол года без простоев. И масштабируется он хорошо.

Написано более трёх лет назад
Юрий Ярош @voidnugget

Леша Киселев: ноды падали по разным причинам: начиная от утечек памяти, и заканчивая проблемами синхронизации - на одной ноде было по 64Гб оперативки и ~2Тб данных. Проблемы со старту решались экстенсивным путём под предлогом "железо дешевле", в итоге пришлось писать кастомные граф-ориентированные индексы и MVP-tree based индексы для PostgreSQL с довольно большой допилкой его полнотекстового движка, хотя под OpenSource'ом это так и не опубликовалось - контора развалилась :)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 11

4 комментария

Сергей Протько @Fesor

для таких объемов и простых задач лучше nosql решения, из ппулярных - касандра. Для таких задачь использование оракла это слишком жирно.

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Спасибо за совет! А первая Ваша фраза похожа на: "Кто-то когда-то видел маленьких голубей?" =)

Написано более трёх лет назад
Антон @Largo1

т.е. идентифицировать объект будете по 5000 параметров.. среди подобных.. и причем тут тогда кассандра

Написано более трёх лет назад
sim3x @sim3x

Антон: те кто работает с таким обьемом точно не будут советовать оракл

Написано более трёх лет назад

3 комментария

Комментировать

5 комментариев

xmoonlight @xmoonlight

С первого взгляда внушает доверие, а так - нужно тестировать.

Написано более трёх лет назад
Dimchansky @Dimchansky

xmoonlight: Мы использовали в real time bidding для хранения профилей пользователей сначала Cassandra, но у нас были очень жесткие требования к задержкам и Cassandra нас не устраивала, т.к. ее stop the world GC очень сильно влиял на это. В каждом из 3 DC у нас было по 8 машин со 196 GB оперативки и в итоге мы заменили эти машины на пару аэроспайков. На каждом сервере стоит несколько SSD, с которых аероспайк напрямую в параллельном режиме читает данные. Единственное требование - это чтобы индекс ключей умещался в памяти.

Написано более трёх лет назад
Dimchansky @Dimchansky

Вот тут коротко о нашем опыте: blog.adform.com/technical/married-to-cassandra

Написано более трёх лет назад
xmoonlight @xmoonlight

Dimchansky: т.е. он с SSD копирует индексы в память при поднятии базы и далее "налету" синхронизирует постоянно память и SSD при новых индексах, правильно я понял?

Написано более трёх лет назад
Dimchansky @Dimchansky

xmoonlight: ну эти индексы не индексы с данными, они представляют собой просто указатель откуда с SSD можно прочитать данные для конкретного хеша ключа.

Написано более трёх лет назад

19 комментариев

Сергей Протько @Fesor

кхе-кхе, мускуль? Серьезно?

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Протько: лично я - не проверял, чем чёрт не шуштит..... вдруг он справится?...

Написано более трёх лет назад
Сергей Протько @Fesor

xmoonlight: ну на такой задаче должен справиться, главное шардирование организовать. Но с тем же успехом можно просто в файловой системе хранить, толку будет явно больше (искать по хэшу пофигу чем).

Написано более трёх лет назад
Сергей Протько @Fesor

xmoonlight: ну допустим на офф сайте касандры говорится что эплы хранят в ней 10Pb инфы, что мне лично внушает.

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Сергей Протько: в файловой системе, реально триллион Inodes сделать?

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Протько: я бы вот еще подрезал бы этот "кустарник" от "избыточности", освободив БД от тучи копий одного и того же...

Написано более трёх лет назад
Сергей Протько @Fesor

ruboss: ну давайте так, на одном mysql сервере вы так же 100Tb данных держать не сможете, а в распределенной файловой системе - запросто.

Написано более трёх лет назад
Сергей Протько @Fesor

xmoonlight: ну хэши так не минимизировать. Дублирование начальных символов будут идентификаторами шард.

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Протько: нет, речь идёт именно про сам контент, который хешируется. (чтобы его не плодить)

Написано более трёх лет назад
Сергей Протько @Fesor

xmoonlight: ну тут сложно, тут поиск по хэшам, так что... Хотя я на месте автора просто уменьшил бы картинки, это дает и аппроксимацию нормальную и вообще... хотя это надо вдаваться в детали задачи.

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Протько: еще сильно зависит от кол-ва критериев (контуры, цвета, области и т.д.), можно хэши формировать просто на основе данных и тогда будет как раз то, что ты пишешь. А критерии - слоями можно добавить в конец.

Написано более трёх лет назад
Сергей Протько @Fesor

xmoonlight: это если мы по контурам делаем, а автор выделяет хэши как часть алгоритма. Он указал ссылку на метод выделения фич из изображения в комментариях к вопросу.

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Протько: ну вот, собстна, мы и нашли "узкое горло" такого подхода при поиске

Написано более трёх лет назад
Сергей Протько @Fesor

xmoonlight: по контурам еще хуже, года 3 назад пробовал, поиск по хэшам работал лучше.

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Протько: хеши контуров или хеши частей алгоритма?

Написано более трёх лет назад
Сергей Протько @Fesor

xmoonlight: хэши контуров, ибо получить контур нормально задачка может быть довольно сложной и это нужно только когда мы классифицируем объекты на картинках, и да, для этого есть другие методы. Помниться хороший вариант был с обучением нейронной сети через bag of words

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Протько: значит я правильно понял. ну да, контур с разной степенью детализации (размер матрицы от крупной к более детальной) внутри одного хеша и единым алгоритмом поворота/наложения (вектор вращения) - это хороший способ получить качественный результат даже с слегка отличающимися хешами. (нашли 0 -> ищем частично: отсекая часть правой части хеша)

Написано более трёх лет назад
Сергей Протько @Fesor

xmoonlight: я просто хочу сказать что хэши контуров это удобно... ну например когда мы распознаем текст, с другой стороны фичи вроде SIFT как раз таки учитывают контуры, так что я не вижу смысла в придумывании каких-то стремных вещей.

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Протько: Однозначно!

Написано более трёх лет назад

1 комментарий

Комментировать

4 комментария

Оптимус Пьян @marrk2

Думаю все в тайне догадываются что решение автора по сравнению картинок через 5000 хэшей не оптимально, я даже не вникая в тему могу сходу придумать 2-3 менее затратных варианта....

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Дмитрий: буду благодарен, очень даже интерестно услышать Ваши варианты

Написано более трёх лет назад
Оптимус Пьян @marrk2

ruboss: постройте матрицу по части картинки раз, сократите выборку через цвета два, поработайте с exif три, постройте геометрию соотношений до самых тёмных и светлых частей четыре

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Дмитрий: какую матрицу? цвета вообще не важны в этой задаче. зачем так усложнять все? Есть дескрипторы инвариантные к изменению размеров, поворота и т.д. Все что Вы написали, относится скорей к глобальным признакам и поиск по ним будет не возможен при малейшем изменении изображения - т.е добавление текста, обрезка и т.д. Думаю, локальные признаки самое оно. Если решение не оптимально, то зачем тогда в Яндексе его используют?

Написано более трёх лет назад

2 комментария

ruboss @ruboss Автор вопроса

Что Вы имеете ввиду, можно немного подробнее?

Написано более трёх лет назад
Алексей Акулович @AterCattus

ruboss: Да все просто: строится обратный индекс "хеш" -> "список изображений, его содержащий". Шардирование по изображениям (чтобы все хеши одной картинки попадали в один шард). Приходит пачка хешей искомого изображения - мы проходимся по этим линиям индекса. При предварительной сортировке линий (отлично работает вставкой при добавлении нового элемента) получение ТОПа выполняется в один проход по этим линиям.
У меня как раз есть похожая задача (не картинки, речь про индекс), но там только 300 миллионов объектов, и с каждого порядка 10 тысяч 32битных хешей. Работает хорошо.

Написано более трёх лет назад

4 комментария

ruboss @ruboss Автор вопроса

С хешем, не то написал. 32 бита* т.е строка вида (1001010101...) UTF-8 2 байта занимает по идее, как он может занимать 6, это разновидности ? тогда 32 бита я могу сложить в 2 символа ютф. Здесь Вы правы, скорей это будет не ютф (китайские иероглифы в базе мне не нужны =) ), а ASCII - 4 символа. Спасибо за советы

Написано более трёх лет назад
pansa @pansa

ruboss: Вам не хватит хэша длинной 32 бита для вашего количества элементов.

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

pansa: По началу хватит, а затем сделаю 64 бита.

Написано более трёх лет назад
Alexandre @Alexandre

для картинок - хеши должны храниться как битовые. В этом случае их длинна будет меньше раза в три-четыре.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PHP

+2 ещё

Простой
Как в Drupal 10 массово проставить noindex для >1000 страниц?
- 1 подписчик
- 20 часов назад
- 39 просмотров
1

ответ
MySQL

+1 ещё

Средний
Как восстановить базу данных mysql, если служба mysql не запускается на windows?
- 1 подписчик
- 22 часа назад
- 86 просмотров
1

ответ
NoSQL

+1 ещё

Простой
Как в ScyllaDB создавать функцию и установить её по умолчанию?
- 1 подписчик
- вчера
- 22 просмотра
0

ответов
WordPress

+1 ещё

Простой
Как импортировать большую базу данных в Wordpress?
- 1 подписчик
- вчера
- 55 просмотров
2

ответа
MySQL

+1 ещё

Средний
MySQL ошибка InnoDB: Attempted to open a previously opened tablespace. Куда копать?
- 1 подписчик
- 15 апр.
- 58 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как получить доступ к БД mySQL через терминал?
- 1 подписчик
- 15 апр.
- 92 просмотра
2

ответа
MySQL

+1 ещё

Средний
Как скрестить ElasticSearch и MySQL?
- 3 подписчика
- 15 апр.
- 682 просмотра
2

ответа
MySQL

Простой
Что сработает быстрее, что лучше использовать?
- 2 подписчика
- 14 апр.
- 910 просмотров
1

ответ
PHP

+1 ещё

Простой
Как связать таблицы по одному столбцу и посчитать сумму?
- 2 подписчика
- 14 апр.
- 309 просмотров
2

ответа
PHP

+1 ещё

Простой
Почему не выводит первую строку в select?
- 1 подписчик
- 14 апр.
- 83 просмотра
1

ответ
Показать ещё Загружается…

Программист C++ Builder / базы данных MySQL

RU Electronics • Москва

от 180 000 до 200 000 ₽

Инженер технической поддержки с английским языком и знанием PHP/MySQL

IT-Aces

от 100 000 до 150 000 ₽

Системный аналитик

ROBOTMIA • Новосибирск

от 100 000 ₽

Протестировать веб-сервис на Django и подготовить отчеты

19 апр. 2024, в 18:05

1000 руб./в час

Доработать проект на Django

19 апр. 2024, в 18:02

80000 руб./за проект

Разработать 3 сайта по готовому дизайну (оптимизирован под tilda)

19 апр. 2024, в 17:56

30000 руб./за проект

а могли бы вы уточнить, в чем смысл? Искать изображение ко хэшам фич? В любом слуае 100Тб это очень много, я бы брал какую-нибудь касандру для этого.
Сергей Протько: да, по хешам фич, что-то типа LSH https://en.wikipedia.org/wiki/Locality-sensitive_h...
ruboss: интересная задача у вас, завидую слегка) Я правильно понимаю что вы таким образом хотите организовать поиск похожих изображений?
Сергей Протько: совершенно верно! Если вам интересно, советую ознакомится на досуге - habrahabr.ru/company/yandex/blog/258573
Сергей Протько: да это просто заказ на госзакупках - разработка системы автоматического распознавания по морде лица и не только) включая собак и кошек)
sim3x: Как предлагаете осюществлять поиск? Используя файловую систему?
Антон: заказ на распознавание грудей от 3го размера и больше xD
sim3x: интересно. Т.е просто создаются файлы с названием хэша и значениями внутри файла? Как лучше сделать, больше серверов с меньшими обьемами памяти или все на одном сервере?
ruboss:
$ cat /7d690f663338a870c80d7d81997cd569778cd66b e56bcb767ea690afc5e0c6a382f5948267f8893f

файл с названием хеша какой-то области в себе содержит хеш-как-имя изображения

Как делать? Все зависит от финансов и нагрузок. Можно и на одной, если дисков хватит
Если делать шардирование, то нужно будет выделить пару машин под маршрутизаторы-баллансеры запросов

Не стоит так зацикливаться на бд с самого начала

Answer 1 · 2015-09-19 19:46:46

Сергей Протько @Fesor

Full-stack developer (Symfony, Angular)

cassandra.apache.org

Ответ написан более трёх лет назад

2 комментария

Answer 2 · 2015-09-19 20:20:27

Пума Тайланд @opium

Просто люблю качественно работать

Не потащит
Нужны эластиксерчи или касандры или МАП редьюс решения.

Ответ написан более трёх лет назад

5 комментариев

Answer 3 · 2015-09-19 19:26:44

Антон @Largo1

Айтишник далёкого плана

хм, странно всё это.. обычно кто создаёт подобную базу - уже знает что делать.. работайте с Oracle

Ответ написан более трёх лет назад

4 комментария

Answer 4 · 2015-09-19 19:31:34

Макс @MaxDukov

впишусь в проект как SRE/DevOps.

столько не потянет и оракл. смотрите на хадуп

Ответ написан более трёх лет назад

3 комментария

Answer 5 · 2015-09-20 10:26:47

ФС тоже БД

PC-1 for routing
возвращает адреса машин, на которых лежат хеши и картинки по, 
например, первым 4 байтам хеша

PC-1 for hashes
|-/file_with_hash_of_region: content hash of image
|-....

PC-n for hashes
|-/file_with_hash_of_region: content hash of image
|-....

PC-1 for images
|-/image_file_with_hash_as_name
|-....

PC-n for images
|-/image_file_with_hash_as_name
|-....

Answer 6 · 2015-09-24 12:19:03

Dimchansky @Dimchansky

Вряд ли что-то будет быстрее кластера из Aerospike с SSD дисками

Ответ написан более трёх лет назад

5 комментариев

Answer 7 · 2015-09-19 19:36:01

Каждый hash делайте первичным ключом и затем смотрите тут:
https://dev.mysql.com/doc/refman/5.5/en/innodb-ind...

UPD: я бы добавил, что для обучения и эталонирования образа (на основе множества подобных из БД), нужно удалять из дальнейшей выборки (однократным проходом по всей базе) промежуточные "близкие" "похожие" экземпляры, оставляя определённый процент допуска по параметрам. Таким образом, она не будет расти от "копий" подобных экземпляров.

Answer 8 · 2015-09-19 23:12:26

Попробуйте ArangoDB
API очень простое и скорострельность на высоте. Но это в том случае если с NoSQL хотите решением попробовать

Answer 9 · 2015-09-24 14:28:51

Александр Черных @sashkets

Прекратил отвечать после 24.02.2022

вот еще свежая новость www.nixp.ru/news/13589.html

Ответ написан более трёх лет назад

Комментировать

Answer 10 · 2015-09-24 17:12:32

Юрий Ярош @voidnugget

Программист-прагматик

Я бы даже лучше уехал в сторону scylladb - более толковая штука чем Cassandra / Hbase.

Ответ написан более трёх лет назад

Комментировать

Answer 11 · 2015-09-24 18:38:24

Столько ответов, притом, что никто даже не уточнил, что автор подразумевает под поиском по хэшам.
Просто по одному хэшу возвращать айдишник фотки?

Answer 12 · 2015-09-24 20:43:41

Если нужно получать идентификаторы картинок, чьи хеши встречаются наиболее часто в запрошенной выборке, то тут нужно строить не просто key-value, а более оптимальные индексы...

Answer 13 · 2015-09-25 00:09:13

Лично меня еще смутили такме моменты:
1) а что это за хэши такие странные - в символах UTF8? Вкурсе, что _1 символ_ в этой кодировке может занять от 1 до 6 байт, что на таком кол-ве записей ведет к огромному разбросу. Если у вас хэш из ASCII, то тогда зачем притянули сюда UTF8?
2) 32-64 символа -- так 32 или 64? На вашем кол-ве это разница +- 50Тб . Это довольно серьезные объемы.
3) Как вы посчитали 100Тб? Вы учли место под индекс?

Идеи по проблеме:
1) тащить сюда реляционку не стоит, ибо...
2) очевидно, что это всё надо запускать не на одной машине, на глаз - минимум 2, не считая бэкапа (он нужен?) либо реплик => шардинг => kv-хранилища подойдут лучше (если мы правильно поняли, что вы хотите)
3) ничего не сказано про кол-во запросов - вставки/чтения. Но я бы подумал над размещением перед этим хранилищем предварительной проверке по фильтру Блума, чтобы лишний раз не стукаться в хранилище. Но это надо знать характер данных и запросов.

Как следует организовать базу и поиск по 1 000 000 000 000 (триллиону) записей на 100ТБ?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт