Как правильно составить функцию qHash для объекта содержащего два QString? Или просто какой алгоритм для хеширования двух строк?

Question

Artem @JustSokol

newby programmer

Как правильно составить функцию qHash для объекта содержащего два QString? Или просто какой алгоритм для хеширования двух строк?

Необходимо запихивать в QSet пользовательский тип данных, который состоит из двух QString, что-то вроде:

class Mynametype {
public:
    QString firstName;
    QString lastName;
};

Для этого необходимо написать функцию qHash. Интересует именно алгоритм получения неповторяющегося хеша двух строк. Код на С++/Qt не требуется, сам напишу если буду знать как вычислить.

Особенности строк (если это важно):
Первая строка и вторая строка - какие угодно, но не большие (скажем до 100 символов, хотя в среднем по 10, 20 максимум).

Нужно также чтобы было не простая конкатенация и ее хеш, тк нужно чтобы разные пары firstName lastName хешились по разному, даже если конкатенация строк одинаковая. Тоесть если есть скажем полное имя "Abdul Karim Jabar", то
объекты типа Mynametype с { firstName="Abdul ", lastName="Karim Jabar" } и { firstName="Abdul Karim", lastName=" Jabar" }
это РАЗНЫЕ объекты, несмотря на то что конкатенация firstName + lastName равна.

Пока что пришло в голову лишь сделать конкатенацию и в середину всунуть какой-то символ разделитель и уже такую строку захешировать уже имеющимся в Qt методом. Типа:
return qHash(firstName+"|"+lastName);

Но чет не уверен что это нормальный способ, поэтому оцените нормально будет работать или мб в каких-то случаях нет.
Да и хотелось бы что-то более элегантное, особенно с алгоритмической точки зрения.

Вообще говоря исходный тип данных не связан с именами и это просто две разные строки.
Если что, то пробелы и прочие знаки не алфавита не должны никуда деваться и сравниваются на общих основаниях, т.е. например строка с ними на конце или в середине и без них - РАЗНЫЕ строки.

Вопрос задан более трёх лет назад
834 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 3

4 комментария

Artem @JustSokol Автор вопроса

перечитайте пост мой

Написано более трёх лет назад
Станислав Макаров @Nipheris Куратор тега C++

Artem да я так его три раза прочел прежде чем ответить, расскажите пожалуйста почему вас так беспокоит случай совпадения конкатенаций. Т.е. есть два вопроса: 1) понимаете ли вы, что уникальный хэш получить невозможно для строк той длины, что у вас есть; 2) непонятно зачем вам уникальный хэш и почему вас так беспокоит его неуникальность в достаточно редком на мой взгляд случае.
Если строки у вас совсем короткие, по 2-3 символа, то тогда совпадать будет почаще, значит пример с именами неудачный.

Написано более трёх лет назад
Artem @JustSokol Автор вопроса

Станислав Макаров: хммм. про хеши почти ничего не знаю
про недостижимость абсолютной уникальности я так понял невозможно тк количество комбинаций 20 символов гораздо больше max uint.
да чет хз почему мне это сразу в голову не пришло )))

меня интересует как тогда будет работать QSet если хеши не уникальные. там только для поиска хеш используется? а соответствие непосредственно по ключу идет?
тоесть если отобразится в одно значения хешевое 2 ключа(совпадение), то при вызове QSet.contains(x), он сначала по хешу найдет два значения а потом сравнит с каждым и даст ответ ?

я просто почему то в 4 утра подумал хеш=ключ в QSet, хех.
прошу прощения за глупость :)

Написано более трёх лет назад
Станислав Макаров @Nipheris Куратор тега C++

@JustSokol
QSet is one of Qt's generic container classes. It stores values in an unspecified order and provides very fast lookup of the values. Internally, QSet is implemented as a QHash (doc.qt.io/qt-5/qset.html#details).
Итак, значит QSet сделан на базе QHash. Конечно, на википедию давать ссылку немного несерьезно, но сейчас поздно уже, я себе позволю) : https://ru.wikipedia.org/wiki/%D0%A5%D0%B5%D1%88-%...
Читаем: Ситуация, когда для различных ключей получается одно и то же хеш-значение, называется коллизией. Такие события не так уж и редки - ... Поэтому механизм разрешения коллизий — важная составляющая любой хеш-таблицы.
И далее перечисляются методы, самые популярные два - вешать на значение хэша список (!) элементов с таким хешем, либо же просто вставлять элементы друг за другом, т.е. искать следующий свободный слот (неважно, что он может потенциально понадобиться другому элементу).
Суть хэш-таблицы - в ускорении поиска, приближении его к O(1) (как, в принципе, и вставок). Точная проверка совпадения обеспечивается дополнительно.
> он сначала по хешу найдет два значения а потом сравнит с каждым и даст ответ
да, разумеется. Там может быть хоть 100 значений на хэш, операция должна выполниться корректно (другое дело - будет выполняться медленнее, чем хочется).
Кстати, внимательно почитайте требования к типу элемента:
- QSet's value data type must be an assignable data type.
- the type must provide operator==()
- must also be a global qHash() function that returns a hash value for an argument of the key's type.
С присвоением понятно, с qHash тоже, обратите внимание на оператор сравнения - никто его не отменял, он по прежнему нужен и должен корректно отрабатывать.
Резюме: проблема поиска хорошего хэша безусловно есть в каждой подобной задаче, однако это вопрос снижения сложности операций поиска/вставки и повышения производительности. После поиска по хэшу всегда будет поиск на точное совпадение (даже если по хэшу найден только один элемент - вдруг это коллизия и у нас не точное совпадение).

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

C++

+1 ещё

Простой
Рекурсивный ввод-вывод последовательности без использования массивов и списоков?
- 2 подписчика
- 10 часов назад
- 281 просмотр
0

ответов
C++

+2 ещё

Средний
Как сделать маштабирование относительно центра екрана?
- 1 подписчик
- 16 часов назад
- 51 просмотр
0

ответов
C++

Простой
Как составить план по изучению языка C++?
- 1 подписчик
- вчера
- 113 просмотров
2

ответа
C++

+2 ещё

Простой
Как подключить библиотеку TgBot к срр проекту?
- 1 подписчик
- вчера
- 63 просмотра
1

ответ
C++

+2 ещё

Простой
Как выровнять по центру текст подсказки и вводимый текст в QTextEdit?
- 1 подписчик
- вчера
- 35 просмотров
1

ответ
C++

Простой
Как можно разделить данный код (см. ниже) по header'ам и cpp'ам, учитывая зависимости в нём?
- 1 подписчик
- 17 апр.
- 67 просмотров
2

ответа
Windows

+1 ещё

Простой
Как исправить ошибку буфера с UART?
- 1 подписчик
- 15 апр.
- 148 просмотров
2

ответа
C++

Простой
Как вернуть двумерный массив?
- 1 подписчик
- 15 апр.
- 80 просмотров
3

ответа
Qt

Простой
Как собрать QT в *.exe?
- 1 подписчик
- 15 апр.
- 61 просмотр
1

ответ
C++

+1 ещё

Простой
Как реализовать многопоточность на C++?
- 1 подписчик
- 14 апр.
- 131 просмотр
1

ответ
Показать ещё Загружается…

Product Owner (Junior)

Uniscan Research • Новосибирск

от 90 000 ₽

Руководитель отдела тестирования/QA Lead

Uniscan Research • Новосибирск

от 175 000 до 210 000 ₽

Java developer (Intern/Junior)

N.Academy • Москва

от 100 000 ₽

Взлом автомобильной программы

19 апр. 2024, в 05:01

999999 руб./за проект

Доработать телеграм бота

19 апр. 2024, в 03:52

1000 руб./за проект

Написать код на python

19 апр. 2024, в 03:01

1000 руб./за проект

Answer 1 · 2015-08-12 02:11:28

А почему такая странная потребность в УНИКАЛЬНОМ хэше (который вы кстати в принципе не получите для двух строк по 20 символов, т.к. хэш-значение - типа uint)?
> это РАЗНЫЕ объекты, несмотря на то что конкатенация firstName + lastName равна.
ну и пусть, совпадет один раз, не такой уж частый кейс для имени и фамилии. У вас таких Каримов с одинаковым конкатенированным именем тысяча штук будет?

Answer 2 · 2015-08-12 02:43:42

У себя сделал так же как и у вас.
склеивание, а между ними разделитель. работает достаточно быстро.

Answer 3 · 2015-08-12 11:48:23

Возьмите хэш от каждой строки и сделайте xor. Ну если строки одинаковые, то xor не делайте.
А еще можно посмотреть в сторону boost hash, например.

Как правильно составить функцию qHash для объекта содержащего два QString? Или просто какой алгоритм для хеширования двух строк?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт