Войти

Показать полную графическую версию : Программы для поиска и удаления дубликатов файлов


Страниц : 1 2 [3] 4

ALEXEY_DFD
17-09-2008, 18:48
по мне самый лучший поисковик это тот который сравнивает MD5 и он у меня где то был в архиве »
у меня есть подобный, но в данном случае он не подходит

Coutty
17-09-2008, 20:28
ALEXEY_DFD, программа - супер!
Просканил свою папку с музыкой (15 ГБ, 2840 файлов) на Athlon 3000+ за 16 минут. Обнаружено не скажу сколько, но где-то порядка сотни совпадений. При этом некоторые треки различаются по длине, тэгам и битрэйту одновременно.

но к сожалению только по формату mp3 и точность низкая. »
В настройках можно указать ещё ogg. Точность по моей коллекции, кажется, 100% (сейчас мне лениво все прослушивать. Займусь на досуге, если приспичит:)).
Есть две вкладки - "уверенное" и "неуверенное" распознавание. Вот в "неуверенном" совпадений меньше 50%. Хотя и список гораздо короче.

lxa85
19-01-2009, 15:10
Подниму тему.
В NTFS стало возможным создание символический ссылок. К сожалению, преимущества которые они дают иногда оборачиваются их недостатком. Верней не совсем их, а утилит поиска дубликатов. Подскажите, что делать? У меня порядка 6-9 разделов (букв дисков в Моем компьютере)
Один из них создан утилитой subst.
+ ко всему есть пара виртуальных приводов, куда развернуты образа. Просто в добавок хотелось бы знать, что продублированно в образе. (Сборник прикладного ПО)
Часть папок перенаправлена символическими ссылками. (формировал FTP каталог)
Причем не факт, что директория мапируется один к одному. Т.е. монтируемая папка может также содержать ссылки.
Сылки нередко мапируються на соседнии диски. Например на раздел с музыкой.
Теперь собственно вопрос:
Есть ли утилиты понимающие, что они ходят по кругу? (циклическая ссылка поддиректории саму на себя - забавная шутка :) Например H:\tools\tools\...\tools)
Ести ли какая утилитка для нахождения всех <JUNCTION> папок?
Команда >dir их же определяет.
Если утилита поиска дубликатов не может понять, что она сканирует один и тотже файл на диске(имеется ввиду его физическое местоположение), то как ей помочь убрав все сымволические ссылки. Или сделать так, чтоб она пропускала эти ссылки.
Может скрипт какой применить? Который бы удалял символические ссылки?

Xcomers
24-09-2010, 00:19
Отличная прога для поика удаления дубликатов - Duplicate Cleaner (http://nixlife.ru/soft/13597-duplicate-cleaner-147.html). Ищет одинаковые файлы как по содержимому (проверяется контрольная сумма MD5), так и по имени, размеру и дате создания!

ES
03-01-2012, 16:48
Подскажите пожалуйста программу для поиска дубликатов файлов.

Из тех, что я поиском нашел в интернете, ни одна мне не подходит.
Все эти программы имеют примерно одинаковую функциональность: позволяют указать папки в которых надо искать дубликаты, и затем для каждого файла из этих папок ищут дубликат в этих же папках.
В результате они лопатят все файлы в указанных папках, выдают огромный список, и поди там найди те несколько файлов которые интересуют.

Мне же нужно искать дубликаты немного по-другому.
Например, мне сейчас нужно поискать дубликаты только для десяти файлов, но по всем своим локальным дискам.
Поэтому, я бы хотел указать:
1) что искать: только ограниченный список файлов, или все файлы из указанной папки (папок)
2) где искать: или весь диск, или несколько папок на диске

Есть ли в природе такие программы?

ES
05-01-2012, 17:43
вроде нашел такую программу: CloneSpy (http://www.clonespy.com/)

решил написать может кому пригодиться

перебрал около 10 программ, и только в этой описан сценарий который мне нужно выполнить:
принес домой новых 10 файлов, и надо проверить может быть они уже у меня есть на жестком диске, и возможно под другим именем

ES
06-04-2012, 12:36
По-прежнему пользуюсь этой программой. То что мне было нужно выполняет хорошо. Единственное - хотелось бы интерфейс поудобнее.

sceatch
10-04-2012, 13:04
Единственная стоящая - DupKiller
(http://www.dupkiller.net/index_ru.html)

Iska
10-04-2012, 19:41
sceatch, нашли, что сравнивать. Есть CloneSpy и прочие, коих — легион.

У CloneSpy есть только два существенных недостатка: не слишком удачная поддержка работы с клавиатуры, и отсутствие возможности вызова настраиваемого действия для выделенных файлов в окне результатов.

ES
16-04-2012, 18:55
Есть CloneSpy и прочие, коих — легион »
поддерживаю

У CloneSpy есть только два существенных недостатка: не слишком удачная поддержка работы с клавиатуры, и отсутствие возможности вызова настраиваемого действия для выделенных файлов в окне результатов »
я бы еще добавил:
1) нужно сделать иерархическое древовидное представление в окне результатов
2) добавить сравнение файлов не только по CRC, но и другими алгоритмами
3) а также добавить побитное сравнение файлов

Iska
16-04-2012, 20:06
ES, у Вас есть информация о том, какой конкретно алгоритм CRC используется в CloneSpy?

ES
16-04-2012, 20:19
ES, у Вас есть информация о том, какой конкретно алгоритм CRC используется в CloneSpy? »
Нету.
Если очень интересно, в принципе можно написать разработчикам. Я думаю что они ответят

softter
20-04-2012, 18:08
ES, у Вас есть информация о том, какой конкретно алгоритм CRC используется в CloneSpy? »

Алгоритмы подсчета CRC как правило ресурсоемкие. Если бы я писал программу поиска дублей, то сделал бы ее в 2 действия.

1. Поиск файлов с таким же размером с точностью до 1 байта.

2. В найденных файлах искал бы 1-2 сигнатуры в том же месте (на подобии антивирусов) что и в исходном файле. При совпадении, можно утверждать практически со 100% вероятностью что найденный файлы - полные копии исходного файла.

Iska
20-04-2012, 19:32
Алгоритмы подсчета CRC как правило ресурсоемкие. Если бы я писал программу поиска дублей, то сделал бы ее в 2 действия. »
Выигрыш получается:

* при сравнении множества файлов;
* при работе в офф-лайн режиме (т.е. у нас есть один раз рассчитанный набор сумм, с которыми мы сравниваем другие файлы; CloneSpy к тому же позволяет впоследствии объединять наборы).

2. В найденных файлах искал бы 1-2 сигнатуры в том же месте (на подобии антивирусов) что и в исходном файле. При совпадении, можно утверждать практически со 100% вероятностью что найденный файлы - полные копии исходного файла. »
Дело в том, что остаётся ненулевая вероятность того, что файлы различны. Что, как Вы понимаете, делает полностью неприемлемым данный метод. Можно, конечно, в случае совпадения дополнительно сравнивать файлы целиком, но тем самым мы опять возвращаемся к тому, с чего начали: как сравнивать?

Второй недостаток данного подхода, который полностью ставит на нём крест, куда существенней: какую длину последовательности и с какого места файла брать? Малая длина последовательности заведомо приведёт к ошибкам первого рода, большая длина последовательности намертво похоронит при сравнении наш временной выигрыш на сколько-нибудь значимом количестве файлов — время сравнения будет расти в большей степени (по сравнению со сравнением контрольных сумм — вот тавтология, да?, при этом расчёт контрольных сумм однозначно и напрямую зависит от размера файлов).

Baber
21-04-2012, 10:38
вроде нашел такую программу: CloneSpy »
Есть эта программа или HELP на русском языке?

softter
21-04-2012, 13:30
Дело в том, что остаётся ненулевая вероятность того, что файлы различны. Что, как Вы понимаете, делает полностью неприемлемым данный метод. Можно, конечно, в случае совпадения дополнительно сравнивать файлы целиком, но тем самым мы опять возвращаемся к тому, с чего начали: как сравнивать?
Второй недостаток данного подхода, который полностью ставит на нём крест, куда существенней: какую длину последовательности и с какого места файла брать? Малая длина последовательности заведомо приведёт к ошибкам первого рода, большая длина последовательности намертво похоронит при сравнении наш временной выигрыш на сколько-нибудь значимом количестве файлов — время сравнения будет расти в большей степени (по сравнению со сравнением контрольных сумм — вот тавтология, да?, при этом расчёт контрольных сумм однозначно и напрямую зависит от размера файлов). »


Я написал ранее максимально упрощенный алгоритм, который всегда можно усложнить при желании.

Допустим, у нас есть 3 файла, и мы подозреваем, что в системе есть куча их дублей, но не знаем где.

1. Составляем 3 сигнатуры по 100 байт, все конечно зависит от размера файлов, но если они более нескольких КБ то:

1-я сигнатура с 300 по 400 байт (чтобы не попали технические заголовки, часто идентичные)
2-я сигнатура берется из середины файла
3-я сигнатура берется с его конца (между последними 400 и 300 байтами)

2. Ищем все файлы с точно таким же размером (их будет не очень много). Пути к найденным файлам запоминаем.

3. Файлы, имеющие одинаковый размер проверяем по сигнатурам (естественно по тем же адресам), на идентичность эталонам.

Да, согласен, результат не гарантирован на 100%, но вероятность этого события крайне мала. Даже MD5 сумма теоретически может быть одинакова для нескольких разных значений, так как размер хеша MD5 не бесконечен.


Есть очевидный плюс. Написать программу по данному алгоритму можно очень быстро, в течение дня.

Iska
21-04-2012, 13:54
Допустим, у нас есть 3 файла, »
1700000 и 600000 файлов. И подозреваем, что среди них есть дубли. Реальный случай из практики.

При этом размеры файлов колеблются от нескольких байт и до… неважно. Как будем брать сигнатуры?

Да, согласен, результат не гарантирован на 100%, но вероятность этого события крайне мала. »
Поскольку вероятность события не нулевая — всё равно придётся затем сравнивать файлы с одинаковой сигнатурой либо побайтно, либо как-то ещё. Полную гарантию даёт, конечно, только побайтное сравнение.

Даже MD5 сумма теоретически может быть одинакова для нескольких разных значений, так как размер хеша MD5 не бесконечен. »
Разумеется. Для CRC32 поле ещё меньше.

Я оттого и интересовался, как именно рассчитывает контрольную сумму CloneSpy — как раз на предмет того, проводятся ли им какие-либо дополнительные проверки при совпадении контрольных сумм файлов одного размера. Ради интереса я даже проводил проверку: создал два файла одного размера, но разного содержания, имеющих одну и ту же контрольную сумму CRC32. CloneSpy опознал их как два разных файла.

Есть очевидный плюс. Написать программу по данному алгоритму можно очень быстро, в течение дня. »
Ежели напишете — берусь сравнить её с CloneSpy.

xoxmodav
23-04-2012, 13:20
ри этом размеры файлов колеблются от нескольких байт и до… неважно. Как будем брать сигнатуры? »
Брать надо MD5 или SHA, файлы очень маленького размера (к примеру до 100-1000 байт) сравнивать по размеру и содержимому для исключения коллизий. Для более крупных вычислять хеши и сравнивать по ним.

EROS
18-10-2012, 12:48
Добрый день, подскажите пожалуйста, есть ли такая программа "Поиск и Удаления Дубликатов Файлов", но что б было так 1 раз настроил и забыл, а еще лучше, что была не видимая для пользователей. На форуме искал не нашел,

Можно любой софт платный или бесплатный.

Iska
18-10-2012, 15:38
подскажите пожалуйста, есть ли такая программа "Поиск и Удаления Дубликатов Файлов", но что б было так 1 раз настроил и забыл, »
Прочтите всю тему с самого первого поста.




© OSzone.net 2001-2012