Программы для поиска и удаления дубликатов файлов
Задача такая. У меня есть 500 ДВд дисков, забитых фильмами MPG4. я собираю фильмы из интернета десятками за день. Я их списываю на диски и пополняю свою коллекцию. Очень часто фильмы на разных интернет ресурсах дублируются часто под разными именами, например Day Watch.avi = Дневной дозор.avi. фильмы я качаю с помощью Teleport Ultra, которая ведёт базу данных по тем фильмам, которые уже скачаны. А проблема в следующем: как наиболее удобным образом(минимум затрат моего времени) определять, какие фильмы уде есть в моей коллекции, и удалять их, а каких ещё нет, и оставлять их. Итак, я нашёл недавно программу фриверную MD5 Registry, которая сопоставляет файлы по МД5 соответствию. Но в ней есть один недостаток - каждый файл приходится удалять вручную... Есть програма MPsoft Undoublе, но она, к сожалению, не способна к кумулятивному накоплению файлов. В идеале я бы хотел найти программу, которая бы обладала удобной системой поиска, как, например, Offline CD Browser, каждый диск бы хранился в отдельном файле, в котором бы хранилась исчерпывающая информация о структуре файлов, а также и контрольной сумме. и чтобы она корректно сравнивала содержимое жёсткого диска с всем массивом компакт дисков. К сожалению, я не смог найти такой программы. Наиболее близка к идеалу MD5 Registry, но у неё есть пару не очень удобных моментов. Может кто-то знает похожие программы? Я сначала хотел сам написать такую программу, заточенную под эту задачу, но у меня мало свободного времени на это... после того, как я нашёл md5 registry, я отказался от идеи писать свою программу, но вот модуль для преобразования её быза данных я бы написал. Если никто мне не подскажет, что ж , буду пользоваться MD5 Registry. Заранее спасибо за ответ...
|
А вести список фильмов не пробовал? У меня например такой в екселе есть, и просто стоит ввести название и сразу определит есть такой или нет, ну конечно необходмы поля с оригин. названием и названием после корявого перевода.
|
Да веду я списочек. это удобно, если добывается пару фильмов в день. А если в день их прибывает штук 40-50, то это можно задолбаться. а ищу я в файрфоксе - очень удобно. если надо найти. а вот если найти дубликаты, то проще повеситься:)
|
Так, вот, за это время нашёл ТОЛЬКО одну программу, которая предназначена специально для этого. Называется duplibase. Но что мне в ней не понравилось,так это применение CRC32, а не МД5. Предназначена для удаления дубликатов с ХДД, имея в виду файлы списанные на ДВД.
стоит она 25 долларов, но для 25 долларов она ещё слишком сырая, и я не хочу её приобретать, она слишком простая... Поиски продолжаются... желательно фриверную программу, которая написана с любовью и заботой о пользователе. У MD5 registry обнаружил один серьёзный недостаток - она не может работать с файлами, имена которых содержат русские буквы. но она ещё сырая, может это пофиксят.... а вообще уже рука подымается самому такую программу написать... блин... ну неужели ни у кого таких задач нет? в инете сотни каталогизаторов, все на оно лицо, и нельзя понять, чем они так сильно отличабтся друг от друга... а хоть бы один искал дупликаты _И_ имел базу данных. а то в инете программы в основном _ИЛИ_ :((((((((((((((( |
Вот я и начал писать такую программу. Она уже умеет делать всё то, о чём я писал... хочешь сделать что-то хорошо, сделай это сам (с) Пятый Элемент
она делает кое-что такое, что ни одна программа не делает: собирает МД5 слепок с мп3 файлов, полностью игнорируя тэги, сканирует заодно мп3 файл и вычисляет честным образом средний битрейт и время звучания. в будущем введу режим работы с папками, интеллектуальную систему определения схожести папок, и.т.д.... заточена под огромные объёмы данных - на десятки миллионов файлов. И чёрта с два бы я такую программу нашёл... зато моё! а в будущем хочу в неё вмонтировать три интересных модуля - 1) поиск похожих по звучанию мп3 файлов с ФФТ анализом и.т.д. 2) выделение из мп3 трека мотива, или главной темы, или кульминации, или припева и последующее пережатие его в низком битрейте - как бы превьюшка для мп3 3) распознавание нот - выделение мотива и занесение его в базу данных, чтобы написав ноты можно было бы найти треки с таким мотивом и насколько я знаю, нет ни одной программы, которая бы это делала, кроме третьего пункта, но те программы заточены под преобразование в миди мп3 файлов, а это немногг не то, хотя тоже интересно, но справляются они с этим отвратно... |
Начал с фильмов - закончил мр3 :)
Ну и как успехи? Альфа, вета есть? Посмотреть можно? |
Да, я написал альфу. Расчитывал на небольшую утилиту, поэтому писал как консольное приложение методами структурного программирования. работает с командной строки.
задача по сканированию содержания мп3, игнорируя таги решена. программа генерирует Батч-файл с командами для переноса дублирующихся файлов в указанное место. сейчас я вижу, что надо будет её переделать в ООП. и сделать в GUI виде. потому что чем больше пишешь код, тьем больше хочешь новых возможностей. хочу какм-то боком впихнуть туда одновременное сканирование поверхности ДВД или СД диска, путём внесения информации либо о скорости чтения, либо, что ешё лучше - статистики по c1 c2, PIE,PIF ошибкам. но в плане последнего я не нашёл СДК для этого. тогда на основании этой статистики можно было бы делать выводы о том, насколько надёжно хранится группа файлов, и ввести порог ошибок. соответствующий пункт в меню - перезаписать файлы, которые имеют определённый уровень ошибок. таким образом можно предотвратить потерю файлов при длительном хранении на СД и дВД из-за разложения красителя в составе болванки. + сделать экспорт базы данных в ХТМЛ формат +всякие мелочи. одному непросто это всё делать, тем более времени не хватает, но проект я не бросаю. хорошо бы кого-то присоединить... есть у меня приятель-программист, так ведь из запоя почти никогда не выходит...:)) |
Программы для поиска и удаления дубликатов файлов
посоветуйте прогу для поиска дубликатов файлов, желательно побесплатней
|
foxbat
Файлы каких типов искаться будут? для всех типов файлов есть NoClone CloneSpy Files Comparer для картинок ImageDupeless Dup Detector но кроме последней все платные ;-) |
Цитата:
З.Ы. послядняя ссылка то и не фурычит :) |
foxbat
Цитата:
не расстрайвайся, она всёравно очень медленно работала пользуйся ImageDupeless |
Даже Total Commander умеет искать дубликаты :)
Еще есть плагины к Far'у (выйти на них можно через rarlab.com) - там почти бесплатно. |
Цитата:
|
foxbat
Попробуйте FDFinder. Просто задаёте ей папку или диск где надо искать дубликаты и всё. Без спросу ничего не удаляет. |
foxbatза последние года три у меня накопилась коллекция картинок, эдак тысяч 180
и конечно на первом же десятке я столкнулся с проблемой дубликатов, перебрал всё, что посоветовал мне Yandex но удобней и быстрей чем ImageDupeless до сих пор не нашол ;) |
Цитата:
- открываешь поиск, - выбираешь диск или папку, в который искать дубликаты, - вкладка "Допольнительно", - подраздел "Поиск дубликатов" - выбирай что хочешь и нажимай "Начать поиск". |
xoxmodav ну блин.... а мужики там не знают(с)... :))
спасибо всем, попробую всё... нашёл даже консольную прогу для поиска дублей.. |
2xoxmodav: а как потом с помощью Total Commander удалить дубликаты? При условии что дубликатов несколько тысяч?
|
Так все-таки - можно с помощью Total Commander удалить дубликаты?
|
Нажать кнопку "файлы-на панель", затем выделить все дубликаты, кроме того, который нужно оставить!
|
2BARETER
Цитата:
|
Для фильмотеки в самый раз Ant Movie Catalog, прога бесплатна, с открытым исходным текстом на Дельфи. Так что если в проге что-то не понравится можно дописать, ведь это легче нежели с чистого листа писать.
Про саму прогу (и не только) на русском можно почитать здесь Органайзер для фильмов SharoWarez Хакер, номер #077, стр. 077-143-3 Если коротко то в прогу вбиваем оригинальное название, выбираем информационный сервер с фильмами (в проге есть база) и она скачивает всю доступную инфу на этот фильм. |
С поиском и удалением дубликатов очень хорошо справляется Easy Duplicate File Finder
Особенности программы: * не требует инсталяции; * поиск файлов не только по имени и размеру, но и по содержимому; * поиск файлов по маске, гибкая система настройки сканирования; * поиск дубликатов из отдельных папок или дисков; * безопасность работы, зашита от удаления системных файлов; * опционально, удаление файлов в корзину; * удобный пользовательский интерфейс; * возможность выбрать файлы вручную (для исключения), либо автоматически, переименовать файлы, переместить повторяющиеся файлы в папку, открыть папку содержащую выбранный файл и многое другое. Проверенно на личном опыте :wink: |
simsim, очень удобная прога. Радует наличие проверки дубликатов по контрольной сумме CRC32, а не только по объёму.
|
Admiral, Она много разных "прибамбасов" имеет, не смотря на свой маленький размер, да ещё и не требуя инсталляции. :up
|
simsim, да ещё и под юзером без Админ прав запустилась и проинсталилась (распаковалась) в указанную мной папку.
А как правильно выделять все дубликаты на третьем шаге? Она просит только в текущей папки и под папках, а как во всём списке третьего шага? Easy Duplicate File Finder был замечен на маркировке файлов которые не являются дубликатами, по этому пришлось отказаться от этой программы в пользу Duplicate File Finder Эта программа уже Shareware, не зарегистрированная версия постоянно будет об этом напоминать при запуске. |
Нужна программа для нахождения дубликатов песен.
Нужна программа для нахождения дубликатов песен. Она не должна сравнивать файлы бит-в-бит или по контрольной сумме, а ориентироваться на содержание. Подскажите название.
|
может быть по названию а не по содержимому? А по содержимому не реально найти песни потому что у mp3, waw, и прочих форматов есть битрейты и они могут быть разными, а если бит рейты будут разными то и содержимое тоже будет разным (в плане звука я имею ввиду).
|
Durson, в общем-то, технически это возможно. Не надо сравнивать "дословно". Достаточно увидеть схожесть в пиках. Но это будет настолько ресурсоёмкий процесс...
Мне бы тоже такая программка пригодилась, жаль, что не видел :( |
Coutty, но все равно сто процентной гарантии в результате не будет.
|
Durson,
Можете предложить что-то лутше? (тоже хочу такую) |
verdix, программу для сравнения песен или их названий?
|
недавно нашёл такое:
Опубликована новая версия программы для поиска дубликатов музыкальных файлов. В отличие от других программ для поиска дубликатов, Music Content Inspector 1.4.2798 Beta определяет одинаковые композиции не по размеру файла, а по его внутренней структуре, выявляя повторные песни, даже в том случае, если они имеют разные размеры и закодированы в различные форматы. Найденные дубликаты располагаются в виде таблицы, в которой кроме названия файла, показываются теги, битрейт, продолжительность и другие сведения. На основе этой информации можно точно узнать, нужен найденный дубликат или нет. Кроме того, Music Content Inspector 1.4.2798 Beta предоставляет возможность просмотра всех просканированных в ходе поиска дубликатов музыкальных файлов, а также позволяет изменять ID3 теги композиций. Для работы Music Content Inspector 1.4.2798 Beta необходим пакет Microsoft .NET Framework 2.0. Но у меня программа не работает. Её постоянно выбивает. Есть ли ещё какие-нибудь подобные программы? |
Вот программа которая тоже умеет искать дубликаты mp3 файлов по тегам Moleskinsoft Clone Remover
вот ещё одна Duplicate File Remover Только все эти программы ищут дубликаты по таким тегам как Авторы, Исполнители и т.п а не по со содержимому файла. |
Цитата:
В песнях тегов нет. Или что-то типа Unknown Artist -- Uknown Album. Так что такие мне не подходят. |
Мне кажется как программисту что такую программу вообще не возможно создать, можно конечно сделать попытки но работать она может быть будет на процентов 30. Music Content Inspector тоже сканирует файлы на теги и битрейты, также добавлю что битрейт это качество звука они бывают как 64, 120, 256 бит и ещё раз повторюсь что это всего лиш качество звучания.
|
Цитата:
|
Хм. интересно сколько в той базе данных находится AMR файлов и сколько названий песен?
Весить будет огромное колличество гигабайт, и что бы получить название той или иной песни надо в начале нарезать первые 15сек. песни (а если 1 песня короче второй?) потом отправть её на сервер, потом сервер должен будет переслать полученные названия на комп отправителя. Это даст только возможность сменить название тех или иных композиций. И вот уже тогда нужно будет пользоваться теми программами которые указанны выше. Конечно все это дело можно запихнуть в одну программу которая будет собирать все песни с компа, нарезать первые секунды песни и отправлять их на сервак где лежит база данных всех песен, потом принимать ответ от базы и сама переименовывать файлы. И появляется вопрос: кто будет создавать эти базы? Но это так рамышлени о том как создать такой сервис. |
Нашёл такое:
Phelix 1.1.7 Phelix - это программа для поиска и удаления дубликатов аудио-файлов. Программа распознает дубликаты даже в случаях если аудио-сигнал сдвинут по времени от начала композиции, файлы имеют различный битрейт или уровень звука. Вроде работает, но к сожалению только по формату mp3 и точность низкая. |
по мне самый лучший поисковик это тот который сравнивает MD5 и он у меня где то был в архиве
|
Цитата:
|
ALEXEY_DFD, программа - супер!
Просканил свою папку с музыкой (15 ГБ, 2840 файлов) на Athlon 3000+ за 16 минут. Обнаружено не скажу сколько, но где-то порядка сотни совпадений. При этом некоторые треки различаются по длине, тэгам и битрэйту одновременно. Цитата:
Есть две вкладки - "уверенное" и "неуверенное" распознавание. Вот в "неуверенном" совпадений меньше 50%. Хотя и список гораздо короче. |
Подниму тему.
В NTFS стало возможным создание символический ссылок. К сожалению, преимущества которые они дают иногда оборачиваются их недостатком. Верней не совсем их, а утилит поиска дубликатов. Подскажите, что делать? У меня порядка 6-9 разделов (букв дисков в Моем компьютере) Один из них создан утилитой subst. + ко всему есть пара виртуальных приводов, куда развернуты образа. Просто в добавок хотелось бы знать, что продублированно в образе. (Сборник прикладного ПО) Часть папок перенаправлена символическими ссылками. (формировал FTP каталог) Причем не факт, что директория мапируется один к одному. Т.е. монтируемая папка может также содержать ссылки. Сылки нередко мапируються на соседнии диски. Например на раздел с музыкой. Теперь собственно вопрос: Есть ли утилиты понимающие, что они ходят по кругу? (циклическая ссылка поддиректории саму на себя - забавная шутка :) Например H:\tools\tools\...\tools) Ести ли какая утилитка для нахождения всех <JUNCTION> папок? Команда >dir их же определяет. Если утилита поиска дубликатов не может понять, что она сканирует один и тотже файл на диске(имеется ввиду его физическое местоположение), то как ей помочь убрав все сымволические ссылки. Или сделать так, чтоб она пропускала эти ссылки. Может скрипт какой применить? Который бы удалял символические ссылки? |
Отличная прога для поика удаления дубликатов - Duplicate Cleaner. Ищет одинаковые файлы как по содержимому (проверяется контрольная сумма MD5), так и по имени, размеру и дате создания!
|
Ищу программу для поиска дубликатов файлов
Подскажите пожалуйста программу для поиска дубликатов файлов.
Из тех, что я поиском нашел в интернете, ни одна мне не подходит. Все эти программы имеют примерно одинаковую функциональность: позволяют указать папки в которых надо искать дубликаты, и затем для каждого файла из этих папок ищут дубликат в этих же папках. В результате они лопатят все файлы в указанных папках, выдают огромный список, и поди там найди те несколько файлов которые интересуют. Мне же нужно искать дубликаты немного по-другому. Например, мне сейчас нужно поискать дубликаты только для десяти файлов, но по всем своим локальным дискам. Поэтому, я бы хотел указать: 1) что искать: только ограниченный список файлов, или все файлы из указанной папки (папок) 2) где искать: или весь диск, или несколько папок на диске Есть ли в природе такие программы? |
вроде нашел такую программу: CloneSpy
решил написать может кому пригодиться перебрал около 10 программ, и только в этой описан сценарий который мне нужно выполнить: принес домой новых 10 файлов, и надо проверить может быть они уже у меня есть на жестком диске, и возможно под другим именем |
По-прежнему пользуюсь этой программой. То что мне было нужно выполняет хорошо. Единственное - хотелось бы интерфейс поудобнее.
|
Единственная стоящая - DupKiller
(http://www.dupkiller.net/index_ru.html) |
sceatch, нашли, что сравнивать. Есть CloneSpy и прочие, коих — легион.
У CloneSpy есть только два существенных недостатка: не слишком удачная поддержка работы с клавиатуры, и отсутствие возможности вызова настраиваемого действия для выделенных файлов в окне результатов. |
Цитата:
Цитата:
1) нужно сделать иерархическое древовидное представление в окне результатов 2) добавить сравнение файлов не только по CRC, но и другими алгоритмами 3) а также добавить побитное сравнение файлов |
ES, у Вас есть информация о том, какой конкретно алгоритм CRC используется в CloneSpy?
|
Цитата:
Если очень интересно, в принципе можно написать разработчикам. Я думаю что они ответят |
Цитата:
1. Поиск файлов с таким же размером с точностью до 1 байта. 2. В найденных файлах искал бы 1-2 сигнатуры в том же месте (на подобии антивирусов) что и в исходном файле. При совпадении, можно утверждать практически со 100% вероятностью что найденный файлы - полные копии исходного файла. |
Цитата:
* при сравнении множества файлов; * при работе в офф-лайн режиме (т.е. у нас есть один раз рассчитанный набор сумм, с которыми мы сравниваем другие файлы; CloneSpy к тому же позволяет впоследствии объединять наборы). Цитата:
Второй недостаток данного подхода, который полностью ставит на нём крест, куда существенней: какую длину последовательности и с какого места файла брать? Малая длина последовательности заведомо приведёт к ошибкам первого рода, большая длина последовательности намертво похоронит при сравнении наш временной выигрыш на сколько-нибудь значимом количестве файлов — время сравнения будет расти в большей степени (по сравнению со сравнением контрольных сумм — вот тавтология, да?, при этом расчёт контрольных сумм однозначно и напрямую зависит от размера файлов). |
Цитата:
|
Цитата:
Я написал ранее максимально упрощенный алгоритм, который всегда можно усложнить при желании. Допустим, у нас есть 3 файла, и мы подозреваем, что в системе есть куча их дублей, но не знаем где. 1. Составляем 3 сигнатуры по 100 байт, все конечно зависит от размера файлов, но если они более нескольких КБ то: 1-я сигнатура с 300 по 400 байт (чтобы не попали технические заголовки, часто идентичные) 2-я сигнатура берется из середины файла 3-я сигнатура берется с его конца (между последними 400 и 300 байтами) 2. Ищем все файлы с точно таким же размером (их будет не очень много). Пути к найденным файлам запоминаем. 3. Файлы, имеющие одинаковый размер проверяем по сигнатурам (естественно по тем же адресам), на идентичность эталонам. Да, согласен, результат не гарантирован на 100%, но вероятность этого события крайне мала. Даже MD5 сумма теоретически может быть одинакова для нескольких разных значений, так как размер хеша MD5 не бесконечен. Есть очевидный плюс. Написать программу по данному алгоритму можно очень быстро, в течение дня. |
Цитата:
При этом размеры файлов колеблются от нескольких байт и до… неважно. Как будем брать сигнатуры? Цитата:
Цитата:
Я оттого и интересовался, как именно рассчитывает контрольную сумму CloneSpy — как раз на предмет того, проводятся ли им какие-либо дополнительные проверки при совпадении контрольных сумм файлов одного размера. Ради интереса я даже проводил проверку: создал два файла одного размера, но разного содержания, имеющих одну и ту же контрольную сумму CRC32. CloneSpy опознал их как два разных файла. Цитата:
|
Цитата:
|
Посоветуйте ПО для "Поиск и Удаления Дубликатов Файлов".
Добрый день, подскажите пожалуйста, есть ли такая программа "Поиск и Удаления Дубликатов Файлов", но что б было так 1 раз настроил и забыл, а еще лучше, что была не видимая для пользователей. На форуме искал не нашел,
Можно любой софт платный или бесплатный. |
Цитата:
|
Цитата:
|
Для поиска похожих картинок использую Duplicate photo Finder.
Для поиска дубликатов файлов использую Dupkiller Ищу программу для поиска похожих звуковых файлов по звуковому спектру и похожих видео по сравнению кадров. Я осознаю что анализ будет идти очень долго, но мой комп и так месяцами не выключается. |
Время: 20:31. |
Время: 20:31.
© OSzone.net 2001-