Есть ли смысл использовать checksum или hashbyte в JOIN'ах?

Question

zhaar @zhaar

Есть ли смысл использовать checksum или hashbyte в JOIN'ах?

Собственно "простой" вопрос - рассмотрим 3 ситуации работы Left Join'ов. В качестве исходных данных есть простая табличка из 3-х колонок на 10к записей, состоящая из даты (date), текста (varchar(1000) и чисел (int) (tbl1), а так же вторая табличка на 100к записей с кучей столбцов в т.ч. и тех, которые нужны для джойна.
Задача - найти различия в данных и вывести их пользователю.

Что будет быстрее работать? Вопрос чисто теоретический.

1) Left join, в котором явно указываются связи по каждому полю, т.е.

left join tbl2 on tbl1.date=tbl2.date and tbl1.text=tbl2.text and tbl1.size=tbl2.size

2) Left join, где используются concat из всех полей, чтобы собрать одну длинную строчку для джойна по ней, т.е.:

left join tbl2 on concat(tbl1.date,tbl1.text,tbl1.size) = concat(tbl2.date,tbl2.text,tbl2.size)

3) Left join, где используются хэш-функция или проверочная сумма, т.е.

left join tbl2 on checksum(tbl1.date,tbl1.text,tbl1.size) = checksum(tbl2.date,tbl2.text,tbl2.size)

Вопрос задан более трёх лет назад
235 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

SQL Server

+1 ещё

Простой
Резервное копирование журнала транзакции ms sql. Автоматически. Растет журнал транзакций. Сжатие это удаление?
- 2 подписчика
- вчера
- 134 просмотра
2

ответа
PHP

+1 ещё

Простой
Где ошибка в коде при создании древа в sql из файла?
- 1 подписчик
- 24 апр.
- 102 просмотра
0

ответов
MySQL

+1 ещё

Простой
Как извлечь топ 15 очков из таблицы чтобы игроки не дублировались?
- 1 подписчик
- 22 апр.
- 122 просмотра
1

ответ
SQL Server

+1 ещё

Простой
Какой вариант демонстрации проекта оптимальный?
- 1 подписчик
- 13 апр.
- 68 просмотров
2

ответа
C#

+3 ещё

Простой
Как решить проблему подключения БД к WPF проекту?
- 1 подписчик
- 11 апр.
- 99 просмотров
2

ответа
PHP

+1 ещё

Простой
Как правильно сформировать запрос и вывести данные в цикле?
- 1 подписчик
- 10 апр.
- 134 просмотра
3

ответа
SQL

Простой
Как вывести колонку с определенной информацией sql?
- 1 подписчик
- 09 апр.
- 108 просмотров
1

ответ
SQL

Простой
Как вывести полученные данные из таблицы sql?
- 1 подписчик
- 09 апр.
- 84 просмотра
2

ответа
SQL Server

Простой
Почему не получается присоединить базу к действующей Always on group?
- 1 подписчик
- 05 апр.
- 15 просмотров
0

ответов
Python

+1 ещё

Простой
Как выполнять запросы в БД одновременно?
- 1 подписчик
- 04 апр.
- 194 просмотра
2

ответа
Показать ещё Загружается…

Тестировщик SQL

Bell Integrator • Санкт-Петербург

До 200 000 ₽

Программист SQL

АвтоАльянс • Москва

от 165 000 ₽

Программист SQL

САМО-Софт • Москва

До 220 000 ₽

8266 f12 требуется сделать ревью и оптимизировать работу

26 апр. 2024, в 20:42

2000 руб./за проект

Доработать и интегрировать модуль на WordPress

26 апр. 2024, в 19:53

5000 руб./за проект

Разработать Telegram mini app

15 апр. 2024, в 22:14

30000 руб./за проект

Answer 1 · 2019-03-21 11:21:48

Однозначно первый вариант. А совсем правильно - это по этим полям еще и индексы построить.

Answer 2 · 2019-03-18 19:46:19

Самый верный способ узнать - это создать выборку и попробовать на ней.
Предполагаю, что в большинстве случаев выигрывать будет первый вариант, хотя для таблиц меньше чем в десятки тысяч записей разница будет на уровне погрешности. База данных, скорее всего, будет эффективно использовать дату и число для предварительной фильтрации, и только после этого сравнивать текст. Поэтому второй вариант в любом случае проигрышный.
Вычислять что-то во время выполнения запроса для всей таблицы вообще не очень хорошая идея.
В некоторых случаях, если данных действительно очень много, то можно посчитать хеш заранее, построить по нему индекс и искать.

PS. Для академического интереса можно построить БД и данные так, что каждый из трёх вариантов будет выигрывать.

Answer 3 · 2019-03-21 13:59:35

Из того, что проверил сам результаты почти не отличаются. Единственное что выяснил, что checksum для джойнов лучше не использовать, т.к. часто дает "коллизии" из-за которых дублируются связи.
Добавление индексов хорошо помогает на совсем больших таблицах, где куча данных (например, за бОльшее число периодов, чем указано в условии where)

Answer 4 · 2019-03-22 13:35:19

Можно в таблице tbl создать поле в котором хранить checksum(tbl.date,tbl.text,tbl.size) и сделать по этому полю индексацию.

Если checksum дает много коллизий можно попробовать другой хэш, в MSSQL например их вот сколько вариантов:
MD2 | MD4 | MD5 | SHA | SHA1 | SHA2_256 | SHA2_512

https://docs.microsoft.com/ru-ru/sql/t-sql/functio...

Но хэш хорош только когда нужно ответить на вопрос = или <>, а за другими условиями все равно придется в поля таблицы идти.

У меня есть кейс, где нужно искать совпадения по 17 аналитикам и там такой способ ускорил поиск в 10 - ки раз по сравнению с обычным поиском по куче полей, в вашем случае всего 3 поля и наверное join по полям и наличие селективного индекса хотя бы по одному из них уже достаточно.
По полю с varchar(1000) лучше не делать индекса, а по двум другим вполне можно.

Есть ли смысл использовать checksum или hashbyte в JOIN'ах?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт