Компьютерный форум OSzone.net  

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)
-   Программное обеспечение Windows (http://forum.oszone.net/forumdisplay.php?f=7)
-   -   Программы для поиска и удаления дубликатов файлов (http://forum.oszone.net/showthread.php?t=78415)

Alex Cop 09-03-2006 04:29 415429

Программы для поиска и удаления дубликатов файлов
 
Задача такая. У меня есть 500 ДВд дисков, забитых фильмами MPG4. я собираю фильмы из интернета десятками за день. Я их списываю на диски и пополняю свою коллекцию. Очень часто фильмы на разных интернет ресурсах дублируются часто под разными именами, например Day Watch.avi = Дневной дозор.avi. фильмы я качаю с помощью Teleport Ultra, которая ведёт базу данных по тем фильмам, которые уже скачаны. А проблема в следующем: как наиболее удобным образом(минимум затрат моего времени) определять, какие фильмы уде есть в моей коллекции, и удалять их, а каких ещё нет, и оставлять их. Итак, я нашёл недавно программу фриверную MD5 Registry, которая сопоставляет файлы по МД5 соответствию. Но в ней есть один недостаток - каждый файл приходится удалять вручную... Есть програма MPsoft Undoublе, но она, к сожалению, не способна к кумулятивному накоплению файлов. В идеале я бы хотел найти программу, которая бы обладала удобной системой поиска, как, например, Offline CD Browser, каждый диск бы хранился в отдельном файле, в котором бы хранилась исчерпывающая информация о структуре файлов, а также и контрольной сумме. и чтобы она корректно сравнивала содержимое жёсткого диска с всем массивом компакт дисков. К сожалению, я не смог найти такой программы. Наиболее близка к идеалу MD5 Registry, но у неё есть пару не очень удобных моментов. Может кто-то знает похожие программы? Я сначала хотел сам написать такую программу, заточенную под эту задачу, но у меня мало свободного времени на это... после того, как я нашёл md5 registry, я отказался от идеи писать свою программу, но вот модуль для преобразования её быза данных я бы написал. Если никто мне не подскажет, что ж , буду пользоваться MD5 Registry. Заранее спасибо за ответ...

Ronald 09-03-2006 11:07 415531

А вести список фильмов не пробовал? У меня например такой в екселе есть, и просто стоит ввести название и сразу определит есть такой или нет, ну конечно необходмы поля с оригин. названием и названием после корявого перевода.

Alex Cop 10-03-2006 06:19 415898

Да веду я списочек. это удобно, если добывается пару фильмов в день. А если в день их прибывает штук 40-50, то это можно задолбаться. а ищу я в файрфоксе - очень удобно. если надо найти. а вот если найти дубликаты, то проще повеситься:)

Alex Cop 12-03-2006 05:10 416736

Так, вот, за это время нашёл ТОЛЬКО одну программу, которая предназначена специально для этого. Называется duplibase. Но что мне в ней не понравилось,так это применение CRC32, а не МД5. Предназначена для удаления дубликатов с ХДД, имея в виду файлы списанные на ДВД.
стоит она 25 долларов, но для 25 долларов она ещё слишком сырая, и я не хочу её приобретать, она слишком простая...

Поиски продолжаются... желательно фриверную программу, которая написана с любовью и заботой о пользователе.

У MD5 registry обнаружил один серьёзный недостаток - она не может работать с файлами, имена которых содержат русские буквы. но она ещё сырая, может это пофиксят....

а вообще уже рука подымается самому такую программу написать... блин... ну неужели ни у кого таких задач нет? в инете сотни каталогизаторов, все на оно лицо, и нельзя понять, чем они так сильно отличабтся друг от друга...
а хоть бы один искал дупликаты _И_ имел базу данных. а то в инете программы в основном _ИЛИ_

:(((((((((((((((

Alex Cop 08-07-2006 03:42 459070

Вот я и начал писать такую программу. Она уже умеет делать всё то, о чём я писал... хочешь сделать что-то хорошо, сделай это сам (с) Пятый Элемент
она делает кое-что такое, что ни одна программа не делает: собирает МД5 слепок с мп3 файлов, полностью игнорируя тэги, сканирует заодно мп3 файл и вычисляет честным образом средний битрейт и время звучания. в будущем введу режим работы с папками, интеллектуальную систему определения схожести папок, и.т.д.... заточена под огромные объёмы данных - на десятки миллионов файлов. И чёрта с два бы я такую программу нашёл... зато моё!

а в будущем хочу в неё вмонтировать три интересных модуля -
1) поиск похожих по звучанию мп3 файлов с ФФТ анализом и.т.д.
2) выделение из мп3 трека мотива, или главной темы, или кульминации, или припева и последующее пережатие его в низком битрейте - как бы превьюшка для мп3
3) распознавание нот - выделение мотива и занесение его в базу данных, чтобы написав ноты можно было бы найти треки с таким мотивом

и насколько я знаю, нет ни одной программы, которая бы это делала, кроме третьего пункта, но те программы заточены под преобразование в миди мп3 файлов, а это немногг не то, хотя тоже интересно, но справляются они с этим отвратно...



Igor_I 03-12-2006 22:57 520403

Начал с фильмов - закончил мр3 :)
Ну и как успехи? Альфа, вета есть? Посмотреть можно?

Alex Cop 16-12-2006 11:15 525381

Да, я написал альфу. Расчитывал на небольшую утилиту, поэтому писал как консольное приложение методами структурного программирования. работает с командной строки.
задача по сканированию содержания мп3, игнорируя таги решена. программа генерирует Батч-файл с командами для переноса дублирующихся файлов в указанное место.

сейчас я вижу, что надо будет её переделать в ООП. и сделать в GUI виде. потому что чем больше пишешь код, тьем больше хочешь новых возможностей.

хочу какм-то боком впихнуть туда одновременное сканирование поверхности ДВД или СД диска, путём внесения информации либо о скорости чтения, либо, что ешё лучше - статистики по c1 c2, PIE,PIF ошибкам. но в плане последнего я не нашёл СДК для этого. тогда на основании этой статистики можно было бы делать выводы о том, насколько надёжно хранится группа файлов, и ввести порог ошибок. соответствующий пункт в меню - перезаписать файлы, которые имеют определённый уровень ошибок. таким образом можно предотвратить потерю файлов при длительном хранении на СД и дВД из-за разложения красителя в составе болванки.

+ сделать экспорт базы данных в ХТМЛ формат

+всякие мелочи.

одному непросто это всё делать, тем более времени не хватает, но проект я не бросаю. хорошо бы кого-то присоединить... есть у меня приятель-программист, так ведь из запоя почти никогда не выходит...:))

foxbat 29-01-2007 11:03 542962

Программы для поиска и удаления дубликатов файлов
 
посоветуйте прогу для поиска дубликатов файлов, желательно побесплатней

MadMaks 29-01-2007 11:28 542977

foxbat
Файлы каких типов искаться будут?
для всех типов файлов есть NoClone
CloneSpy
Files Comparer
для картинок
ImageDupeless
Dup Detector
но кроме последней все платные ;-)

foxbat 29-01-2007 12:08 542994

Цитата:

foxbat
Файлы каких типов искаться будут?
для всех типов файлов есть NoClone
CloneSpy
Files Comparer
для картинок
ImageDupeless
Dup Detector
но кроме последней все платные ;-)
по большей части картинки
З.Ы.
послядняя ссылка то и не фурычит :)

MadMaks 29-01-2007 12:30 543004

foxbat
Цитата:

Closed as of 5/28/06
действительно сайт не работает, да и сама прога давно не обновлялась
не расстрайвайся, она всёравно очень медленно работала
пользуйся ImageDupeless

BARETER 29-01-2007 17:52 543145

Даже Total Commander умеет искать дубликаты :)
Еще есть плагины к Far'у (выйти на них можно через rarlab.com) - там почти бесплатно.

foxbat 29-01-2007 19:48 543193

Цитата:


Даже Total Commander умеет искать дубликаты
просвети пож-та, как это делать?

SimSim 29-01-2007 22:26 543244

foxbat
Попробуйте FDFinder. Просто задаёте ей папку или диск где надо искать дубликаты и всё. Без спросу ничего не удаляет.

MadMaks 30-01-2007 09:06 543383

foxbatза последние года три у меня накопилась коллекция картинок, эдак тысяч 180
и конечно на первом же десятке я столкнулся с проблемой дубликатов, перебрал всё, что посоветовал мне Yandex но удобней и быстрей чем ImageDupeless до сих пор не нашол ;)

xoxmodav 30-01-2007 09:25 543393

Цитата:

Даже Total Commander умеет искать дубликаты

просвети пож-та, как это делать?
Запросто:
- открываешь поиск,
- выбираешь диск или папку, в который искать дубликаты,
- вкладка "Допольнительно",
- подраздел "Поиск дубликатов" - выбирай что хочешь и нажимай "Начать поиск".

foxbat 30-01-2007 10:27 543428

xoxmodav ну блин.... а мужики там не знают(с)... :))

спасибо всем, попробую всё... нашёл даже консольную прогу для поиска дублей..

Michael 17-04-2007 16:23 575615

2xoxmodav: а как потом с помощью Total Commander удалить дубликаты? При условии что дубликатов несколько тысяч?

Michael 11-05-2007 11:21 585576

Так все-таки - можно с помощью Total Commander удалить дубликаты?

BARETER 11-05-2007 18:46 585793

Нажать кнопку "файлы-на панель", затем выделить все дубликаты, кроме того, который нужно оставить!

Michael 14-05-2007 08:37 586551

2BARETER
Цитата:

затем выделить все дубликаты
Как выделять - руками по одному или есть автоматизированный вариант? Т.к. если руками, то при общем количестве дубликатов хотя бы порядка сотни, уже напрягает, а если их еще больше?

Admiral 19-07-2008 23:04 856519

Для фильмотеки в самый раз Ant Movie Catalog, прога бесплатна, с открытым исходным текстом на Дельфи. Так что если в проге что-то не понравится можно дописать, ведь это легче нежели с чистого листа писать.
Про саму прогу (и не только) на русском можно почитать здесь
Органайзер для фильмов
SharoWarez Хакер, номер #077, стр. 077-143-3
Если коротко то в прогу вбиваем оригинальное название, выбираем информационный сервер с фильмами (в проге есть база) и она скачивает всю доступную инфу на этот фильм.

SimSim 20-07-2008 00:03 856568

С поиском и удалением дубликатов очень хорошо справляется Easy Duplicate File Finder
Особенности программы:
* не требует инсталяции;
* поиск файлов не только по имени и размеру, но и по содержимому;
* поиск файлов по маске, гибкая система настройки сканирования;
* поиск дубликатов из отдельных папок или дисков;
* безопасность работы, зашита от удаления системных файлов;
* опционально, удаление файлов в корзину;
* удобный пользовательский интерфейс;
* возможность выбрать файлы вручную (для исключения), либо автоматически, переименовать файлы, переместить повторяющиеся файлы в папку, открыть папку содержащую выбранный файл и многое другое.
Проверенно на личном опыте :wink:

Admiral 20-07-2008 00:18 856574

simsim, очень удобная прога. Радует наличие проверки дубликатов по контрольной сумме CRC32, а не только по объёму.

SimSim 20-07-2008 00:27 856577

Admiral, Она много разных "прибамбасов" имеет, не смотря на свой маленький размер, да ещё и не требуя инсталляции. :up

Admiral 20-07-2008 01:21 856607

simsim, да ещё и под юзером без Админ прав запустилась и проинсталилась (распаковалась) в указанную мной папку.
А как правильно выделять все дубликаты на третьем шаге? Она просит только в текущей папки и под папках, а как во всём списке третьего шага?

Easy Duplicate File Finder был замечен на маркировке файлов которые не являются дубликатами, по этому пришлось отказаться от этой программы в пользу Duplicate File Finder
Эта программа уже Shareware, не зарегистрированная версия постоянно будет об этом напоминать при запуске.

ALEXEY_DFD 14-09-2008 20:22 899110

Нужна программа для нахождения дубликатов песен.
 
Нужна программа для нахождения дубликатов песен. Она не должна сравнивать файлы бит-в-бит или по контрольной сумме, а ориентироваться на содержание. Подскажите название.

Durson 14-09-2008 22:18 899208

может быть по названию а не по содержимому? А по содержимому не реально найти песни потому что у mp3, waw, и прочих форматов есть битрейты и они могут быть разными, а если бит рейты будут разными то и содержимое тоже будет разным (в плане звука я имею ввиду).

Coutty 14-09-2008 22:21 899213

Durson, в общем-то, технически это возможно. Не надо сравнивать "дословно". Достаточно увидеть схожесть в пиках. Но это будет настолько ресурсоёмкий процесс...
Мне бы тоже такая программка пригодилась, жаль, что не видел :(

Durson 14-09-2008 22:25 899216

Coutty, но все равно сто процентной гарантии в результате не будет.

verdix 14-09-2008 22:49 899234

Durson,
Можете предложить что-то лутше? (тоже хочу такую)

Durson 14-09-2008 22:52 899238

verdix, программу для сравнения песен или их названий?

ALEXEY_DFD 15-09-2008 13:51 899747

недавно нашёл такое:

Опубликована новая версия программы для поиска дубликатов музыкальных файлов. В отличие от других программ для поиска дубликатов, Music Content Inspector 1.4.2798 Beta определяет одинаковые композиции не по размеру файла, а по его внутренней структуре, выявляя повторные песни, даже в том случае, если они имеют разные размеры и закодированы в различные форматы. Найденные дубликаты располагаются в виде таблицы, в которой кроме названия файла, показываются теги, битрейт, продолжительность и другие сведения. На основе этой информации можно точно узнать, нужен найденный дубликат или нет. Кроме того, Music Content Inspector 1.4.2798 Beta предоставляет возможность просмотра всех просканированных в ходе поиска дубликатов музыкальных файлов, а также позволяет изменять ID3 теги композиций. Для работы Music Content Inspector 1.4.2798 Beta необходим пакет Microsoft .NET Framework 2.0.

Но у меня программа не работает. Её постоянно выбивает.
Есть ли ещё какие-нибудь подобные программы?

Durson 15-09-2008 14:01 899759

Вот программа которая тоже умеет искать дубликаты mp3 файлов по тегам Moleskinsoft Clone Remover

вот ещё одна Duplicate File Remover
Только все эти программы ищут дубликаты по таким тегам как Авторы, Исполнители и т.п а не по со содержимому файла.

ALEXEY_DFD 15-09-2008 14:13 899778

Цитата:

Цитата Durson
Только все эти программы ищут дубликаты по таким тегам как Авторы, Исполнители и т.п а не по со содержимому файла »


В песнях тегов нет. Или что-то типа Unknown Artist -- Uknown Album.
Так что такие мне не подходят.

Durson 15-09-2008 15:38 899863

Мне кажется как программисту что такую программу вообще не возможно создать, можно конечно сделать попытки но работать она может быть будет на процентов 30. Music Content Inspector тоже сканирует файлы на теги и битрейты, также добавлю что битрейт это качество звука они бывают как 64, 120, 256 бит и ещё раз повторюсь что это всего лиш качество звучания.

ALEXEY_DFD 15-09-2008 15:49 899877

Цитата:

Цитата Durson
Мне кажется как программисту что такую программу вообще не возможно создать »

А как на счёт этого http://ru.wikipedia.org/wiki/TrackID. Если можно найти из базы, то сравнить несколько песен это должно быть раз плюнуть. И ведь не требуется 100% точность.

Durson 15-09-2008 15:59 899884

Хм. интересно сколько в той базе данных находится AMR файлов и сколько названий песен?

Весить будет огромное колличество гигабайт, и что бы получить название той или иной песни надо в начале нарезать первые 15сек. песни (а если 1 песня короче второй?) потом отправть её на сервер, потом сервер должен будет переслать полученные названия на комп отправителя. Это даст только возможность сменить название тех или иных композиций. И вот уже тогда нужно будет пользоваться теми программами которые указанны выше. Конечно все это дело можно запихнуть в одну программу которая будет собирать все песни с компа, нарезать первые секунды песни и отправлять их на сервак где лежит база данных всех песен, потом принимать ответ от базы и сама переименовывать файлы. И появляется вопрос: кто будет создавать эти базы? Но это так рамышлени о том как создать такой сервис.

ALEXEY_DFD 16-09-2008 14:50 900747

Нашёл такое:

Phelix 1.1.7

Phelix - это программа для поиска и удаления дубликатов аудио-файлов. Программа распознает дубликаты даже в случаях если аудио-сигнал сдвинут по времени от начала композиции, файлы имеют различный битрейт или уровень звука.


Вроде работает, но к сожалению только по формату mp3 и точность низкая.

Baw17 16-09-2008 14:55 900751

по мне самый лучший поисковик это тот который сравнивает MD5 и он у меня где то был в архиве

ALEXEY_DFD 17-09-2008 18:48 901871

Цитата:

Цитата Baw17
по мне самый лучший поисковик это тот который сравнивает MD5 и он у меня где то был в архиве »

у меня есть подобный, но в данном случае он не подходит

Coutty 17-09-2008 20:28 901925

ALEXEY_DFD, программа - супер!
Просканил свою папку с музыкой (15 ГБ, 2840 файлов) на Athlon 3000+ за 16 минут. Обнаружено не скажу сколько, но где-то порядка сотни совпадений. При этом некоторые треки различаются по длине, тэгам и битрэйту одновременно.

Цитата:

Цитата ALEXEY_DFD
но к сожалению только по формату mp3 и точность низкая. »

В настройках можно указать ещё ogg. Точность по моей коллекции, кажется, 100% (сейчас мне лениво все прослушивать. Займусь на досуге, если приспичит:)).
Есть две вкладки - "уверенное" и "неуверенное" распознавание. Вот в "неуверенном" совпадений меньше 50%. Хотя и список гораздо короче.

lxa85 19-01-2009 15:10 1012691

Подниму тему.
В NTFS стало возможным создание символический ссылок. К сожалению, преимущества которые они дают иногда оборачиваются их недостатком. Верней не совсем их, а утилит поиска дубликатов. Подскажите, что делать? У меня порядка 6-9 разделов (букв дисков в Моем компьютере)
Один из них создан утилитой subst.
+ ко всему есть пара виртуальных приводов, куда развернуты образа. Просто в добавок хотелось бы знать, что продублированно в образе. (Сборник прикладного ПО)
Часть папок перенаправлена символическими ссылками. (формировал FTP каталог)
Причем не факт, что директория мапируется один к одному. Т.е. монтируемая папка может также содержать ссылки.
Сылки нередко мапируються на соседнии диски. Например на раздел с музыкой.
Теперь собственно вопрос:
Есть ли утилиты понимающие, что они ходят по кругу? (циклическая ссылка поддиректории саму на себя - забавная шутка :) Например H:\tools\tools\...\tools)
Ести ли какая утилитка для нахождения всех <JUNCTION> папок?
Команда >dir их же определяет.
Если утилита поиска дубликатов не может понять, что она сканирует один и тотже файл на диске(имеется ввиду его физическое местоположение), то как ей помочь убрав все сымволические ссылки. Или сделать так, чтоб она пропускала эти ссылки.
Может скрипт какой применить? Который бы удалял символические ссылки?

Xcomers 24-09-2010 00:19 1502964

Отличная прога для поика удаления дубликатов - Duplicate Cleaner. Ищет одинаковые файлы как по содержимому (проверяется контрольная сумма MD5), так и по имени, размеру и дате создания!

ES 03-01-2012 16:48 1827539

Ищу программу для поиска дубликатов файлов
 
Подскажите пожалуйста программу для поиска дубликатов файлов.

Из тех, что я поиском нашел в интернете, ни одна мне не подходит.
Все эти программы имеют примерно одинаковую функциональность: позволяют указать папки в которых надо искать дубликаты, и затем для каждого файла из этих папок ищут дубликат в этих же папках.
В результате они лопатят все файлы в указанных папках, выдают огромный список, и поди там найди те несколько файлов которые интересуют.

Мне же нужно искать дубликаты немного по-другому.
Например, мне сейчас нужно поискать дубликаты только для десяти файлов, но по всем своим локальным дискам.
Поэтому, я бы хотел указать:
1) что искать: только ограниченный список файлов, или все файлы из указанной папки (папок)
2) где искать: или весь диск, или несколько папок на диске

Есть ли в природе такие программы?

ES 05-01-2012 17:43 1829054

вроде нашел такую программу: CloneSpy

решил написать может кому пригодиться

перебрал около 10 программ, и только в этой описан сценарий который мне нужно выполнить:
принес домой новых 10 файлов, и надо проверить может быть они уже у меня есть на жестком диске, и возможно под другим именем

ES 06-04-2012 12:36 1894595

По-прежнему пользуюсь этой программой. То что мне было нужно выполняет хорошо. Единственное - хотелось бы интерфейс поудобнее.

sceatch 10-04-2012 13:04 1896983

Единственная стоящая - DupKiller
(http://www.dupkiller.net/index_ru.html)

Iska 10-04-2012 19:41 1897194

sceatch, нашли, что сравнивать. Есть CloneSpy и прочие, коих — легион.

У CloneSpy есть только два существенных недостатка: не слишком удачная поддержка работы с клавиатуры, и отсутствие возможности вызова настраиваемого действия для выделенных файлов в окне результатов.

ES 16-04-2012 18:55 1900898

Цитата:

Цитата Iska
Есть CloneSpy и прочие, коих — легион »

поддерживаю

Цитата:

Цитата Iska
У CloneSpy есть только два существенных недостатка: не слишком удачная поддержка работы с клавиатуры, и отсутствие возможности вызова настраиваемого действия для выделенных файлов в окне результатов »

я бы еще добавил:
1) нужно сделать иерархическое древовидное представление в окне результатов
2) добавить сравнение файлов не только по CRC, но и другими алгоритмами
3) а также добавить побитное сравнение файлов

Iska 16-04-2012 20:06 1900937

ES, у Вас есть информация о том, какой конкретно алгоритм CRC используется в CloneSpy?

ES 16-04-2012 20:19 1900945

Цитата:

Цитата Iska
ES, у Вас есть информация о том, какой конкретно алгоритм CRC используется в CloneSpy? »

Нету.
Если очень интересно, в принципе можно написать разработчикам. Я думаю что они ответят

softter 20-04-2012 18:08 1903343

Цитата:

Цитата Iska
ES, у Вас есть информация о том, какой конкретно алгоритм CRC используется в CloneSpy? »

Алгоритмы подсчета CRC как правило ресурсоемкие. Если бы я писал программу поиска дублей, то сделал бы ее в 2 действия.

1. Поиск файлов с таким же размером с точностью до 1 байта.

2. В найденных файлах искал бы 1-2 сигнатуры в том же месте (на подобии антивирусов) что и в исходном файле. При совпадении, можно утверждать практически со 100% вероятностью что найденный файлы - полные копии исходного файла.

Iska 20-04-2012 19:32 1903388

Цитата:

Цитата softter
Алгоритмы подсчета CRC как правило ресурсоемкие. Если бы я писал программу поиска дублей, то сделал бы ее в 2 действия. »

Выигрыш получается:

* при сравнении множества файлов;
* при работе в офф-лайн режиме (т.е. у нас есть один раз рассчитанный набор сумм, с которыми мы сравниваем другие файлы; CloneSpy к тому же позволяет впоследствии объединять наборы).

Цитата:

Цитата softter
2. В найденных файлах искал бы 1-2 сигнатуры в том же месте (на подобии антивирусов) что и в исходном файле. При совпадении, можно утверждать практически со 100% вероятностью что найденный файлы - полные копии исходного файла. »

Дело в том, что остаётся ненулевая вероятность того, что файлы различны. Что, как Вы понимаете, делает полностью неприемлемым данный метод. Можно, конечно, в случае совпадения дополнительно сравнивать файлы целиком, но тем самым мы опять возвращаемся к тому, с чего начали: как сравнивать?

Второй недостаток данного подхода, который полностью ставит на нём крест, куда существенней: какую длину последовательности и с какого места файла брать? Малая длина последовательности заведомо приведёт к ошибкам первого рода, большая длина последовательности намертво похоронит при сравнении наш временной выигрыш на сколько-нибудь значимом количестве файлов — время сравнения будет расти в большей степени (по сравнению со сравнением контрольных сумм — вот тавтология, да?, при этом расчёт контрольных сумм однозначно и напрямую зависит от размера файлов).

Baber 21-04-2012 10:38 1903600

Цитата:

Цитата ES
вроде нашел такую программу: CloneSpy »

Есть эта программа или HELP на русском языке?

softter 21-04-2012 13:30 1903654

Цитата:

Цитата Iska
Дело в том, что остаётся ненулевая вероятность того, что файлы различны. Что, как Вы понимаете, делает полностью неприемлемым данный метод. Можно, конечно, в случае совпадения дополнительно сравнивать файлы целиком, но тем самым мы опять возвращаемся к тому, с чего начали: как сравнивать?
Второй недостаток данного подхода, который полностью ставит на нём крест, куда существенней: какую длину последовательности и с какого места файла брать? Малая длина последовательности заведомо приведёт к ошибкам первого рода, большая длина последовательности намертво похоронит при сравнении наш временной выигрыш на сколько-нибудь значимом количестве файлов — время сравнения будет расти в большей степени (по сравнению со сравнением контрольных сумм — вот тавтология, да?, при этом расчёт контрольных сумм однозначно и напрямую зависит от размера файлов). »


Я написал ранее максимально упрощенный алгоритм, который всегда можно усложнить при желании.

Допустим, у нас есть 3 файла, и мы подозреваем, что в системе есть куча их дублей, но не знаем где.

1. Составляем 3 сигнатуры по 100 байт, все конечно зависит от размера файлов, но если они более нескольких КБ то:

1-я сигнатура с 300 по 400 байт (чтобы не попали технические заголовки, часто идентичные)
2-я сигнатура берется из середины файла
3-я сигнатура берется с его конца (между последними 400 и 300 байтами)

2. Ищем все файлы с точно таким же размером (их будет не очень много). Пути к найденным файлам запоминаем.

3. Файлы, имеющие одинаковый размер проверяем по сигнатурам (естественно по тем же адресам), на идентичность эталонам.

Да, согласен, результат не гарантирован на 100%, но вероятность этого события крайне мала. Даже MD5 сумма теоретически может быть одинакова для нескольких разных значений, так как размер хеша MD5 не бесконечен.


Есть очевидный плюс. Написать программу по данному алгоритму можно очень быстро, в течение дня.

Iska 21-04-2012 13:54 1903668

Цитата:

Цитата softter
Допустим, у нас есть 3 файла, »

1700000 и 600000 файлов. И подозреваем, что среди них есть дубли. Реальный случай из практики.

При этом размеры файлов колеблются от нескольких байт и до… неважно. Как будем брать сигнатуры?

Цитата:

Цитата softter
Да, согласен, результат не гарантирован на 100%, но вероятность этого события крайне мала. »

Поскольку вероятность события не нулевая — всё равно придётся затем сравнивать файлы с одинаковой сигнатурой либо побайтно, либо как-то ещё. Полную гарантию даёт, конечно, только побайтное сравнение.

Цитата:

Цитата softter
Даже MD5 сумма теоретически может быть одинакова для нескольких разных значений, так как размер хеша MD5 не бесконечен. »

Разумеется. Для CRC32 поле ещё меньше.

Я оттого и интересовался, как именно рассчитывает контрольную сумму CloneSpy — как раз на предмет того, проводятся ли им какие-либо дополнительные проверки при совпадении контрольных сумм файлов одного размера. Ради интереса я даже проводил проверку: создал два файла одного размера, но разного содержания, имеющих одну и ту же контрольную сумму CRC32. CloneSpy опознал их как два разных файла.

Цитата:

Цитата softter
Есть очевидный плюс. Написать программу по данному алгоритму можно очень быстро, в течение дня. »

Ежели напишете — берусь сравнить её с CloneSpy.

xoxmodav 23-04-2012 13:20 1904464

Цитата:

Цитата Iska
ри этом размеры файлов колеблются от нескольких байт и до… неважно. Как будем брать сигнатуры? »

Брать надо MD5 или SHA, файлы очень маленького размера (к примеру до 100-1000 байт) сравнивать по размеру и содержимому для исключения коллизий. Для более крупных вычислять хеши и сравнивать по ним.

EROS 18-10-2012 12:48 2007773

Посоветуйте ПО для "Поиск и Удаления Дубликатов Файлов".
 
Добрый день, подскажите пожалуйста, есть ли такая программа "Поиск и Удаления Дубликатов Файлов", но что б было так 1 раз настроил и забыл, а еще лучше, что была не видимая для пользователей. На форуме искал не нашел,

Можно любой софт платный или бесплатный.

Iska 18-10-2012 15:38 2007862

Цитата:

Цитата EROS
подскажите пожалуйста, есть ли такая программа "Поиск и Удаления Дубликатов Файлов", но что б было так 1 раз настроил и забыл, »

Прочтите всю тему с самого первого поста.

EROS 18-10-2012 19:48 2008049

Цитата:

Цитата Iska
Прочтите всю тему с самого первого поста. »

Прочитал всё, и установил установил что быо, но не нашел такой программы, что б сворачивалась в трей. Программа не должна быть видна для пользователей, не надо что б они в неё лазили, запустил 1 раз и все, работает сама. Есть ли такое...

IsXander5675 07-01-2018 12:00 2789495

Для поиска похожих картинок использую Duplicate photo Finder.
Для поиска дубликатов файлов использую Dupkiller

Ищу программу для поиска похожих звуковых файлов по звуковому спектру и похожих видео по сравнению кадров.
Я осознаю что анализ будет идти очень долго, но мой комп и так месяцами не выключается.


Время: 20:31.

Время: 20:31.
© OSzone.net 2001-