Зачем делают ID в формате sha1?

Question

ivandao @ivandao

Базы данных

Зачем делают ID в формате sha1?

У нас в базе в качестве ID записи вместо простого порядкового числа используется строка формата sha1.
Олды говорят, что это дает равномерное распределение данных по кластеру в процессе хранения и обработки.
Как это понимать и для чего это нужно? Влияет ли это на скорость доступа или еще на что-то?

Вопрос задан более трёх лет назад
631 просмотр

3 комментария

Подписаться 1 Простой 3 комментария

Решения вопроса 3

2 комментария

4 комментария

ince @ince

То есть вся эта канитель актуальна только для высоконагруженных многоэкземплярных баз?

Написано более трёх лет назад
auoa16 @auoa16

ince, в целом ответ да, в большинстве случаев это делается в распределенных базах данных, которые зачастую являются частью высоконагруженных проектов. Но если встретите uuid в базе данных, которая всего одна одинешенька, то тоже не удивляйтесь. Например uuid может использоваться вместо обычных целочисленных айдишников с целью защиты от подбора этих самых айдишников. Если у вас обычное число в качестве id, то очень легко осуществлять подбор, и если у вас какие-то чувствительные данные, то это может создать проблем. А uuid почти невозможно подобрать.

Написано более трёх лет назад
ince @ince

auoa16, от кого защита? Я так понимаю такая атака возможна если бд привязана к публичному api, только так

Написано более трёх лет назад
auoa16 @auoa16

ince, от злоумышленников. Например если вы посмотрите на адресную строку сейчас под этим вопросом, то увидите toster.ru/q/659044, где с большой долей вероятности 659044 - это айдишник вопроса в базе данных. В данном случае это нечувствительные данные и ничего страшного в этом нет, но в проектах где есть чувствительные данные часто избегают использования обычных числовых идентификаторов. Ну и помимо открытости - любая система может быть взломана, и если злоумышленник взломал один из уровней, на котором он получил доступ например к закрытому апи базы данных, то он не сможет подобрать айдишники в случае uuid, чтобы извлечь данные.

Написано более трёх лет назад

13 комментариев

ince @ince

Если я правильно уловил иронию, то Вы против такого подхода?
Мне вот тут в комментариях насоветовали UUID использовать

Написано более трёх лет назад
Melkij @Melkij

Я описал из практики что вы реально получите если будете использовать:
- uuid в text/char/varchar
- sha, md5 или ещё что из хэшей в text/char/varchar
- uuid в специальном для этого типе данных

вместо последовательных int4 или int8. При том int8 вы не исчерпаете никогда (просто посчитайте сколько и как долго вам надо писать чтобы его исчерпать)

use-case нужен довольно редкий. И большое заблуждение будет начитаться разных highload и решить, что уж для ваших 1к rps к 100гб базе точно нужно шардирование на десятки хостов

Написано более трёх лет назад
ince @ince

Melkij, может народ использует это как правило хорошего тона, чтобы привыкнуть и использовать уже на крупных проектах ¯\_(ツ)_/¯

Написано более трёх лет назад
ince @ince

Melkij, есть такое мнение
за счетчик айдишников обычно большая конкуренция в кластере. Как это вот все синхрогизировать, чтобы две записи с одинаковым ключом не сгенерились? Проще использовать UUID и проверять перед вставкой, чтотакого ключа в базе еще нет. С растущим интом такое тоже возможно, но в зависимости от степени конкуренции большая часть транзакций будет ретраится на этапе проверки, что такого ключа еще нет и производительность просто в 0 упадет.

Написано более трёх лет назад
Melkij @Melkij

может народ использует это как правило хорошего тона, чтобы привыкнуть и использовать уже на крупных проектах

Вот только никто не дорастает до соответствующих объёмов.
А пихают - притом в самом худшем проявлении - часто.
Классический пример преждевременной оптимизации, вредит здесь и сейчас и никогда не бывает нужным в будущем потому что система упёрлась в какое-нибудь неожиданное другое место.

за счетчик айдишников обычно большая конкуренция в кластере. Как это вот все синхрогизировать, чтобы две записи с одинаковым ключом не сгенерились?

Вы спрашивали именно про id в базе. База его и должна генерировать. Соответственно retry - откуда? его просто не может появиться.
А упереться в производительность выдачи чисел из сиквенса - ну, это сложно. Очень.

Написано более трёх лет назад
auoa16 @auoa16

- без особой пользы в разы увеличить объём хранимых данных. Тем более если использовать строки.

Если в проекте используется данный подход, значит наверняка была необходимость. Вряд ли на ровном месте люди себе головняки создают.

- дополнительно увеличить стоимость записи индексов (значения случайны = значения пишутся в случайные места дерева, вы постоянно "пачкаете" разные страницы)

В некоторых субд есть возможность генерировать последовательные uuid, что благополучно сказывается на производительности.

Но если это ключ партицирования - то вы бы и так уже знали почему используется не число.

Раз 5 перечитал я все равно не понял. Можете пожалуйста чуть более подробно сказать, что имеете в виду?

Написано более трёх лет назад
Melkij @Melkij

Вряд ли на ровном месте люди себе головняки создают.

Да запросто и постоянно изобретают приключения там где ни малейшего повода для этого нет. Без вменяемой аргументации.
Вон как выше в точности: есть один проект, где это оказалось полезно. Давайте не будем думать что это совершенно не про наш проект, а тупо сделаем так же, ведь те ребята так сделали и вон как выросли.
Самое интересное происходит когда нет осмысленной причины даже не использовать штатный в субд тип данных под uuid, а пихают в varchar(255) какой-нибудь или сразу в text.

В некоторых субд есть возможность генерировать последовательные uuid, что благополучно сказывается на производительности.

Замечательный пример мужественного решения проблем. Вот только раз это функция субд - то и в чём проблема с аналогичным простым сиквенсом?

Раз 5 перечитал я все равно не понял. Можете пожалуйста чуть более подробно сказать, что имеете в виду?

Если поле используется как ключ партицирования в шарде - то это явно задокументировано и вас будут больно бить по рукам за любые попытки запросов без использования ключа партицирования. И узнаете как это поле используется очень быстро, как и почему оно такое получилось. Как правило именно "получилось", исторически, а сейчас дорого и просто не очень нужно менять.

Написано более трёх лет назад
auoa16 @auoa16

Вон как выше в точности: есть один проект, где это оказалось полезно. Давайте не будем думать что это совершенно не про наш проект, а тупо сделаем так же, ведь те ребята так сделали и вон как выросли.
Самое интересное происходит когда нет осмысленной причины даже не использовать штатный в субд тип данных под uuid, а пихают в varchar(255) какой-нибудь или сразу в text.

Я если честно не сосем понимаю, почему Вы так убеждены, что где-то кому-то это не нужно. Если кто-то пророчит себе нагрузки как у фейсбука и заранее готовится - это его проблемы и фантазии, но мы, программисты, должны смотреть на задачу с точки зрения правильной архитектуры и простоты масштабирования. Если проект заточен под рост, то нужно думать о горизонтальном масштабировании. Лучше предусмотреть возможность и создать все условия, чем потом мучиться. Понятное дело, если кто-то делает интернет магазин с кормом для кошек в городе с населением 100к, то это излишне. Но если кто-то планирует создать масштабный проект, то нужно быть готовым. Я знаю про преждевременную оптимизацию и все такое, но заметьте, я ни слова не сказал о том, чтобы поднять десяток серверов заранее. Просто нужно быть архитектурно готовым к такому сценарию. А на счет "пихают в varchar(255)" - это да, катастрофа, если честно не думаю, что в продакшне такие случаи есть или их очень много, уж очень это грубая ошибка.

Замечательный пример мужественного решения проблем. Вот только раз это функция субд - то и в чём проблема с аналогичным простым сиквенсом?

Обычным сиквенсом, генерирующим uuid?

Если поле используется как ключ партицирования в шарде - то это явно задокументировано и вас будут больно бить по рукам за любые попытки запросов без использования ключа партицирования. И узнаете как это поле используется очень быстро, как и почему оно такое получилось. Как правило именно "получилось", исторически, а сейчас дорого и просто не очень нужно менять.

Теперь понял, спасибо.

Написано более трёх лет назад
Melkij @Melkij

А на счет "пихают в varchar(255)" - это да, катастрофа, если честно не думаю, что в продакшне такие случаи есть или их очень много, уж очень это грубая ошибка.

Именно в продакшене, в разных несвязанных между собой проектах, и при том не в магазине для кошек в маленьком городе - туда DBA не требуются.
Наиболее распространённый ответ - а наша orm умеет только так. А зачем вообще uuid делают и сами не могут объяснить, так нынче модно.

Обычным сиквенсом, генерирующим uuid?

Обычным bigint.

мы, программисты, должны смотреть на задачу с точки зрения правильной архитектуры и простоты масштабирования

Вот отсюда и давайте смотреть.
Изначально планируем шардироваться по useruid? Ок, допустим.
Well, а как? На входе у вас есть login (или почта или что вы там решили использовать) и пароль. После входа - можете использовать любой произвольный идентификатор, хоть сразу номер шарда и запомнить в сессии. Авторизацию делаем сканированием по всем шардам? А регистрацию? race condition на уникальности логина по распределённой системе?
И потому прикручивается поверх что-то дальше. Например отдельную базу под авторизацию. А почему бы в ней и не хранить сразу ссылку на шард? И сразу кардинально упрощается миграция пользователей по шардам, хоть отдельного пользователя переносить на выделенный шард. Откуда у вас столько регистраций в секунду, чтобы с этим не справилась одна мастер-база с данными регистраций и N читающих реплик?

Написано более трёх лет назад
auoa16 @auoa16

Melkij, нажимайте пожалуйста "Ответить", чтобы я получал уведомления.

Обычным bigint.

Так речь же шла о том, чтобы генерировать uuid. Вы сказали про производительность, а я упомянул возможность генерации последовательных uuid, которые в производительности не сильно уступают обычным числовым идентификаторам.

На счёт шардинга: искать нужный шард можно по проверенной и многими любимой схеме - вычисляем хеш от логина/телефона -> берём остаток по модулю на количество шардов -> получили нужный шард. Сессий никаких не надо - токены дадут независимость. Уникальность логина нужно проверять в любом случае по всей системе.

Я только не совсем понимаю, почему вы говорите только о количестве регистраций, после регистраций ведь обычно начинается веселье. Ну вот представьте нанимают вас в стартап который делает очередную соц сеть, у них есть деньги и они намерены расти. Как вы можете отказаться от шардинга в таком проекте? Да, проект может не взлететь и все труды будут напрасны, но а если взлетит то что вы будете делать, когда количество запросов которое можно обработать упрется в самую мощную конфигурацию железа? А когда объем данных станет таким, что даже никакие индексы не спасут? Это будет катастрофой.

Написано более трёх лет назад
Melkij @Melkij

auoa16,
искать нужный шард можно по проверенной и многими любимой схеме - вычисляем хеш от логина/телефона -> берём остаток по модулю на количество шардов -> получили нужный шард.

Пришло время добавить новый шард. Действия? Перебалансируем всё? А если не хотим даунтайм на перебалансирование - то требуем места на дисках вдвое больше? Сотня террабайт SSD штука немного не дешёвая. Результат деления-то поменялся, разъехались почти все данные.

Вопрос номер следующий:
Сессий никаких не надо

Как передаёте логин при последующих запросах? После авторизации?

И, главное, - если считаем хэш от логина - зачем вам uuid или хэш первичным ключом? Зачем вам вообще его хранить? Вы по нему вовсе не ищете, вы его вычисляете от логина и так понимаете куда с этим логином идти.

Я только не совсем понимаю, почему вы говорите только о количестве регистраций

Потому что вы упустили что я говорю про отдельную базу для авторизации. Логин, пароль, ссылка на шард. Пишется эта база только при регистрации и столь же редком изменении паролей.
Гранулярные миграции по шардам, элементарный контроль уникальности. И почему-то опять никакой пользы от uuid ни для первичного ключа ни как ключа партицирования. Удивительно.

напомнили об интереснейшем проекте такой же жертвы хайпа на хайлоад: чатилка в соцсети. 12 шардов, 30 тысяч запросов в секунду, рост на террабайт данных месяца за 2-3. И всё ради... 100 сообщений в чате. В сутки. Production, ага.

а если взлетит то что вы будете делать, когда количество запросов которое можно обработать упрется в самую мощную конфигурацию железа?

Фокус в том, что упрётесь раньше и будете упираться регулярно в разные места. Задолго до того как поставите даже второй шард. А там окажется что данные чуть ли не с запуска проекта уже сильно связанные и легко шардироваться всё равно не можете. Или что шардировать надо было вовсе по другому признаку.

Написано более трёх лет назад
Melkij @Melkij

Ну то есть думаете что угадаете как надо шардироваться и считаете что это нужно не через 10 лет плавного роста - пожалуйста, закладывайтесь. И постоянно тестируйте что вы действительно можете шардироваться по этому признаку, а не только когда-то давно думали об этом.
Зачем вам хранить для этого uuid - всё равно не понимаю.

Ну и раз закладываетесь на рост - то сделайте для начала хотя бы градацию запросов на rw, ro-fast, ro-slow. Пригодится ходить на реплику.

Написано более трёх лет назад
auoa16 @auoa16

Melkij,
Пришло время добавить новый шард. Действия? Перебалансируем всё? А если не хотим даунтайм на перебалансирование - то требуем места на дисках вдвое больше?

Ничего из этого не нужно. Необходимо с самого начала создать настолько много шардов, сколько вообще может потребоваться, хоть несколько тысяч. И прелесть в том, что они все могут крутиться всего на одном физическом серваке в начале. Как только количество пользователей увеличивается и на сервер уже приличная нагрузка, то половину шардов перекидываем на другой физический сервак, тем самым снизив нагрузку в 2 раза. И таким образом можно масштабироваться до момента, когда на каждый физический сервер будет приходиться по одному шарду. То есть если мы изначально создадим, например, 1024 шарда, то можно будет расти до очень больших объемов. Все это контролировать можно по разному, самый очевидный вариант это табличка в которой указано, какой шард на каком физическом серваке находится.

Как передаёте логин при последующих запросах? После авторизации?

Как уже говорил, нужно использовать токены, например, jwt. Все что в этом случае нужно передавать - это токен. И этого токена достаточно, чтобы идентифицировать пользователя.

И, главное, - если считаем хэш от логина - зачем вам uuid или хэш первичным ключом? Зачем вам вообще его хранить? Вы по нему вовсе не ищете, вы его вычисляете от логина и так понимаете куда с этим логином идти.

Хеш по сути не нужно хранить - он вычисляется чтобы просто понять на какой шард идти. А вот uuid нужен чтобы обеспечить уникальность по всей базе данных. Мы же не хотим иметь например пользователей с одинаковым id в разных шардах? Да, в данный момент шард для каждого юзера свой, но а если в дальнейшем нужно будет как-то слить все данные в одно место, зачем нам эти конфликты с одинаковыми id? Да и логически это неправильно - ведь логически мы должны рассматривать распределенную базу как единое целое, и все идентичные таблицы на разных шардах должны рассматриваться как части единого целого, а значит нужно обеспечить уникальность.

В кейсе автора вопроса использовали хеш в качестве uuid и я считаю это отличным решением, одной пулей двух зайцев. Единственное, я не понял, как они уместили 20-ибайтный хеш в 16-ибайтный uuid. Надеюсь, они не хранят в varchar.

Потому что вы упустили что я говорю про отдельную базу для авторизации. Логин, пароль, ссылка на шард. Пишется эта база только при регистрации и столь же редком изменении паролей.

Зачем создавать бутылочное горлышко? Это выбивается из концепции равномерного распределения. На каждом шарде должна быть одинаковая структура базы данных.

А там окажется что данные чуть ли не с запуска проекта уже сильно связанные и легко шардироваться всё равно не можете. Или что шардировать надо было вовсе по другому признаку.

Так мы уменьшим их связность благодаря шардингу по например логину юзера, и на каждом шарде у нас будет храниться только информация, относящаяся к юзеру. Конечно, в данном случае возможно очень много дублирования и не самая оптимальная структура с точки зрения нормализации, но хайлоад и нормальные формы это ребята из разных миров.

В целом я согласен с Вами, что в 95%(а может и больше) случаев это все будет лишним и большинство проектов не перерастут даже пары-тройки мощных серверов. Но, тем не менее, если вы делаете проект, который своей целью ставит большое количество пользователей и данных, то на мой взгляд обязанность инженера создать все необходимые условия. Насколько я понял вы DBA и я понимаю, сколько все эти манипуляции доставляют вам боли, ведь поддержка всего этого не самая тривиальная задача. Ну и так же понимаю насколько это обидно, когда тратишь кучу сил на это, а оно в итоге просто оказывается ненужным. Тем не менее, если бизнес требует и нацелен на что-то, мы должны делать так, чтобы все легко и плавно масштабировалось.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Веб-разработка

+1 ещё

Средний
Как реализовать синхронную регистрацию на сайте и форуме(XenFORO) мб(связать их бд)?
- 1 подписчик
- 24 мар.
- 69 просмотров
0

ответов
Веб-разработка

+1 ещё

Средний
Хорошая ли идея создавать БД на стороне клиентской части (фронтенда)?
- 1 подписчик
- 11 мар.
- 238 просмотров
3

ответа
SQL

+2 ещё

Простой
Почему нельзя создать поля типов Boolean или Date в Sqlite через DBeaver или SqliteStudio?
- 1 подписчик
- 29 февр.
- 160 просмотров
2

ответа
Python

+2 ещё

Простой
Как вписать в дискорд бота команду по выдаче роли с удалением предыдущих ролей?
- 1 подписчик
- 29 февр.
- 85 просмотров
1

ответ
Базы данных

Простой
Как максимально быстро найти в диапазоне IP-адресов или подсетях нужный IP-адрес?
- 3 подписчика
- 22 февр.
- 179 просмотров
4

ответа
Node.js

+3 ещё

Средний
Почему при установке Sequelize, не устанавливается pgAdmin?
- 1 подписчик
- 18 февр.
- 62 просмотра
3

ответа
Базы данных

Простой
Какую бесплатную глобальную базу данных вы порекомендуете для хранения данных пользователей (логин, имя, дата авторизации и т. п.)?
- 1 подписчик
- 09 февр.
- 204 просмотра
4

ответа
Базы данных

+4 ещё

Сложный
Какие шаги в плане инфобеза необходимо пройти для запуска приложения в App Store и Play Market, если приложение работает с ПДн?
- 1 подписчик
- 07 февр.
- 121 просмотр
2

ответа
MySQL

+3 ещё

Средний
Можно ли такое реализовать с помощью MySQL?
- 2 подписчика
- 05 февр.
- 708 просмотров
4

ответа
Базы данных

Простой
Какие решения существуют для индексированного поиска по десяткам полей огромных таблиц?
- 4 подписчика
- 04 февр.
- 3577 просмотров
3

ответа
Показать ещё Загружается…

Разработчик баз данных PostgreSQL

Объединенные системы управления транспортом • Москва

До 220 000 ₽

DBA / Администратор баз данных PostgreSQL

СберТех • Москва

от 320 000 ₽

Программист C++ Builder / базы данных MySQL

RU Electronics • Москва

от 180 000 до 200 000 ₽

Поднять собственный сервер на Матриксе

16 апр. 2024, в 20:08

1000 руб./в час

Сверстать 2 транзакционных письма по макету figma

16 апр. 2024, в 20:05

3000 руб./за проект

Автоматизировать работу ноумен с Инстаграмом

16 апр. 2024, в 19:33

1000 руб./за проект

Почитайте "Высоконагруженные приложения" Клеппмана, там этот вопрос подробно и доходчиво освещён.
Nikolay Petyukh, второй предпочтительнее?

Answer 1 · 2019-08-19 18:57:15

Константин Цветков @tsklab

Здесь отвечаю на вопросы.

Для получения суррогатного ключа фиксированной длины от естественного ключа переменной длины.

Ответ написан более трёх лет назад

2 комментария

Answer 2 · 2019-08-19 20:18:43

Тут Вам по кусочкам дали ответ, осталось собрать воедино, чтобы было понятно что к чему. Далее по пунктам:

1) Первое и самое главное здесь то, для чего вообще это хеширование нужно. Правильный ответ Вам дали "олды", о которых Вы сами упомянули, + Сергей Горностаев привел пример отличной книги, где об этом можно почитать подробнее. Если в двух словах, то в распределенных базах данных(когда они хранятся в более чем одном экземпляре) прежде чем сохранить какую-то информацию в какой-то из экземпляров нужно для начала понять, а в какой именно экземпляр должны сохраняться определенные данные. Вот представьте, Вы регистрируетесь в инстаграм, там сотни экземпляров баз данных, как им определить в какой вас сохранить? И тут как раз вступает в дело та самая хеш-функция по каким-то уникальным данным(например по мэйлу или по номеру телефона), которая дает на выходе число. Именно это число определяет в какой экземпляр базы данных сохранить конкретного пользователя(чаще всего там используют деление по модулю на количество экземпляров, ну об этом подробнее можете прочитать в книге, о которой говорилось).

2) Теперь о том, почему это используют как id вместо обычных чисел. Причин может быть на самом деле много, я вам приведу сейчас самую наглядную, а подробнее уже сами потом изучите. Как говорилось выше, распределенная база данных это множество разных экземпляров баз данных, где в каждом экземпляре свои данные. Вот представьте, что у нас 10 разных экземпляров. И хеш-функция по вашему логину указала, что вас нужно сохранить в экземпляр №6. А по моему логину хеш-функция показала, что меня нужно сохранить в экземпляр №3. Тогда что получается: и я и вы теперь записаны в таблицу Users, только ваша таблица Users не имеет никакого отношения к моей, потому что эти таблицы находятся в разных базах данных. То есть логически это одна база данных, но по факту это разные экземпляры. И если бы мы с вами были первыми пользователями и в качестве id использовались бы обычные числа(например автоинкрементные поля), то в базу данных записалось бы два пользователя с одинаковым id(если мы первые пользователи то оба получили бы id=1 каждый в своей базе), что является катастрофой. Так вот чтобы избегать подобных ситуаций, используются специальные идентификаторы, которые называются uuid. Все популярные СУБД имеют встроенную поддержку таких идентификаторов и способы их генерации. Однако насколько я понял в вашем случае вместо использования встроенных функций для генерации uuid разработчики используют результат хеш-функции в качестве этого самого uuid, что довольно классное решение на мой взгляд. А что касается производительности - результат этой хеш-функции это такое число в шестнадцатиричном виде(только чуть больше, 20 байт против 16 у uuid), как классический uuid, поэтому производительность вряд ли пострадает.

Answer 3 · 2019-08-19 18:37:31

Чтобы:
- без особой пользы в разы увеличить объём хранимых данных. Тем более если использовать строки.
- постараться запутать планировщик базы
- дополнительно увеличить стоимость записи индексов (значения случайны = значения пишутся в случайные места дерева, вы постоянно "пачкаете" разные страницы)

Если это ключ партицирования - да, встречается такая схема партицирования. Но если это ключ партицирования - то вы бы и так уже знали почему используется не число.

Зачем делают ID в формате sha1?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт