Имя пользователя:
Пароль:  
Помощь | Регистрация | Забыли пароль?  

Показать сообщение отдельно

Ветеран


Сообщения: 27449
Благодарности: 8087

Профиль | Отправить PM | Цитировать


Цитата softter:
Допустим, у нас есть 3 файла, »
1700000 и 600000 файлов. И подозреваем, что среди них есть дубли. Реальный случай из практики.

При этом размеры файлов колеблются от нескольких байт и до… неважно. Как будем брать сигнатуры?

Цитата softter:
Да, согласен, результат не гарантирован на 100%, но вероятность этого события крайне мала. »
Поскольку вероятность события не нулевая — всё равно придётся затем сравнивать файлы с одинаковой сигнатурой либо побайтно, либо как-то ещё. Полную гарантию даёт, конечно, только побайтное сравнение.

Цитата softter:
Даже MD5 сумма теоретически может быть одинакова для нескольких разных значений, так как размер хеша MD5 не бесконечен. »
Разумеется. Для CRC32 поле ещё меньше.

Я оттого и интересовался, как именно рассчитывает контрольную сумму CloneSpy — как раз на предмет того, проводятся ли им какие-либо дополнительные проверки при совпадении контрольных сумм файлов одного размера. Ради интереса я даже проводил проверку: создал два файла одного размера, но разного содержания, имеющих одну и ту же контрольную сумму CRC32. CloneSpy опознал их как два разных файла.

Цитата softter:
Есть очевидный плюс. Написать программу по данному алгоритму можно очень быстро, в течение дня. »
Ежели напишете — берусь сравнить её с CloneSpy.

Отправлено: 13:54, 21-04-2012 | #57