Какой хеш лучше получать у файла?

Question

Данил Антошкин @TwerTrue

Молодой и неопытный разработчик

Какой хеш лучше получать у файла?

Пишем программу по поиску дубликатов, какой хеш использовать для дальнейшей проверки файлов, нужна быстрота работы, по MD5 файл в 20 ГБ проверялся 10 минут

Вопрос задан более трёх лет назад
1049 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Решения вопроса 4

2 комментария

1 комментарий

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Java

Простой
Всегда ли нужно использовать последнюю версию JDK?
- 1 подписчик
- час назад
- 41 просмотр
2

ответа
Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- 15 часов назад
- 68 просмотров
2

ответа
Android

+3 ещё

Средний
Как получить разрешение для автостарта (чтобы при старте оно загружалось) для приложения под Андройд (Android)?
- 1 подписчик
- 23 апр.
- 73 просмотра
0

ответов
Алгоритмы

Простой
Как внедрить алгоритм Дейкстры для игры змейка на java?
- 1 подписчик
- 22 апр.
- 75 просмотров
0

ответов
C++

+1 ещё

Средний
Как найти кратчайший путь в лабиринте, двигаться в котором можно только вперед и направо?
- 1 подписчик
- 21 апр.
- 118 просмотров
1

ответ
Алгоритмы

+2 ещё

Средний
Какие существуют методы сравнения качества изображения?
- 1 подписчик
- 21 апр.
- 105 просмотров
2

ответа
Алгоритмы

Простой
Какой алгоритм использовать, чтобы: разбить массив чисел так, чтобы суммарная разница между максимальным и минимальным числом была максимальна?
- 1 подписчик
- 21 апр.
- 142 просмотра
1

ответ
Java

Простой
Как сделать глобальный чат Chatty?
- 1 подписчик
- 20 апр.
- 80 просмотров
0

ответов
Java

+2 ещё

Простой
Selenide + Spring Boot. Как объявить страницу через метод open(), если класс страницы является bean?
- 1 подписчик
- 19 апр.
- 44 просмотра
0

ответов
Алгоритмы

Простой
Как устроен вывод в задаче?
- 1 подписчик
- 19 апр.
- 260 просмотров
1

ответ
Показать ещё Загружается…

Lead Java

Bell Integrator • Хабаровск

До 400 000 ₽

Lead Java

Bell Integrator • Ульяновск

До 400 000 ₽

Lead Java

Bell Integrator • Ижевск

До 400 000 ₽

Небольшое приложение реакт. Корзина для интернет магазина

26 апр. 2024, в 12:34

5000 руб./за проект

Разработка AR приложения для наложения ресниц (прикреплено ТЗ)

26 апр. 2024, в 12:28

1500 руб./в час

Нужно добавить цель на кнопки

26 апр. 2024, в 12:22

500 руб./за проект

Answer 1 · 2015-08-15 15:51:10

Для больших файлов считайте хеш не всего файла, а, например, начального мегабайта или хитрой последовательностью - десять кусков по мегабайт из разных частей файла. Всё равно если у вас подозрение на дубликат, то нужно перепроверять другим хешем или непосредственным сравнением.

Answer 2 · 2015-08-15 18:53:41

Какие файлы? Универсальное решение будет, или работающее с конкретным типом данных?

Имеет смысл знать хэш файла, посчитанный, например, через каждый десяток мегабайт. Тогда сравнение можно делать частично.

Посмотрите алгоритмы, которые использует rsync.

Answer 3 · 2015-08-15 22:44:37

КО намекает что быстрее MD5 только CRC32. Кроме шуток с двадцатью гигабайтами, быстро ничего работать не будет, просто потому что эти гигабайты надо через память прогнать. Такие задачи решаются разбиением исходного объёма данных на блоки. Например, брать хэш сумму каждого мегабайта, а потом общую хэш сумму полученных сумм. Достоинство такого подхода в том, что можно считать хэш у частично закаченного файла или считать в несколько потоков.

Answer 4 · 2015-08-15 23:02:46

djb2, например. В сочетании с техниками, перечисленными ранее.
Взят из списка некриптографических хеш-функций

Какой хеш лучше получать у файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт