Показать полную графическую версию : [решено] Программа для поиска дублей с кириллическими именами
В хранилище (8 Гб размером) имеется большое количество файлов (средний размер файла 500 Кб) с расширениями doc, fb2, rtf. Задача: Подсказать программу, способную найти дубли (которые точно там имеются). Утилиты, перечисленные здесь http://www.oszone.net/5896/, а также соответствующий модуль Auslogics практически бесполезны, т.к. имена всех файлов на русском и они их не воспринимают. Единственно DupKiller через пень-колоду нашел отдельные дубли (ручная проверка тогда еще объема в 1 Гб показала, что найдено всего около 30% дублей, включая и ложные срабатывания).
apozlevich
14-08-2012, 22:24
gorill, странно, что те программы не работают. Могу написать свой велосипед - обращайтесь в скайп apozlevich.
rover_61eg
14-08-2012, 22:58
т.к. имена всех файлов на русском и они их не воспринимают. »
Аж не вытерпел, попоробовал.
http://i023.radikal.ru/1208/41/b155b8634d85t.jpg (http://radikal.ru/F/i023.radikal.ru/1208/41/b155b8634d85.jpg.html)
Угу. Сам пользую CloneSpy. Либо у автора особое представление о дубликатах, либо что-то с настройками.
Либо у автора особое представление о дубликатах »
Как Вы себе видите это самое "особое представление"? Есть два или более файла с одинаковым именем в 99% и в 90% случаев с одинаковым размером и однозначно с одинаковым расширением. Это не дубликаты? А что это тогда? Разъясните подробнее такой грамотный такому бестолковому.
что-то с настройками »
И по умолчанию и по расширению и по слову в имени, да как угодно.
попоробовал »
А уж сколько я пробовал...
Если кто-то думает, что я создал тему от нечего делать, тот может пойти покурить, ибо эта проблема достала по самое немогу- место в хранилище ограничено, поэтому вопрос дублей стоит остро. Как происходит : Работаю с файлами, вот случайно обнаруживаю два дубля, и еще два другого файла и т.д. Запускаю утилиты НЕ УДАЛЯЯ случайно найденных и получаю в ответ, что дублей не найдено. Даже тех, что я вижу перед собой.
тотал командер/поиск:
http://smages.com/thumbs/01efe.png (http://smages.com/?v=01efe.png)
Как Вы себе видите это самое "особое представление"? »
Есть два или более файла с одинаковым именем в 99% и в 90% случаев с одинаковым размером и однозначно с одинаковым расширением. Это не дубликаты? »
Если я правильно понимаю назначение данных программ, то "дубликатом" являются файлы, которые на 100% идентичны по содержимому (а не по "внешности"), у файлов подсчитывается контрольная сумма (http://ru.wikipedia.org/wiki/Контрольная_сумма) файла, если файл с идентичной контрольной суммой уже был при поиске, то выводятся данные, что найден дубликат
вот случайно обнаруживаю два дубля, и еще два другого файла и т.д. »
1. Наименьший размер дублей каков?
2. Каким образом Вы сами определяете, что это дубликаты?
1. Наименьший размер дублей каков? »
Не менее 200 Кб
2. Каким образом Вы сами определяете, что это дубликаты? »
Эти файлы представляют собой методические и педагогические материалы, художественные книги, инструкции к приборам, датчикам и т.д. И я сам и другие пользователи частенько скидывают одинаковые материалы и Вы не поверите, но я читать обучен и могу, прочитав имя и содержимое файлов, понять, что они ОДИНАКОВЫЕ. Я не пойму, чего Вы добиваетесь, повторно ставя под сомнение мои умственные способности? Не хотите помогать- промолчите.
тотал командер »
О нем я и не подумал...Спасибо. Испытаю
rover_61eg
15-08-2012, 21:20
прочитав имя и содержимое файлов, понять, что они ОДИНАКОВЫЕ. »
Пример1
Если есть два файла один в djvu, а другой в пдфе и оба содержат одинаковый скан одного и того же документа.
Пример 2
Допустим имеем 2 документа отсканенные в разном разрешении в пдф, но названные одинаково и положенные в разные папки.
С точки зрения человека - информация в этих фалах одинаковая. С точки зрения "компьютера" - нет.
Просто фраза про
Есть два или более файла с одинаковым именем в 99% и в 90% случаев с одинаковым размером и однозначно с одинаковым расширением. Это не дубликаты? трактуется не однозначно.
10 % файлов с неодинаковым размером не дубликаты. Одинаковое имя - вообще не признак.
…и Вы не поверите, но я читать обучен и могу, прочитав имя и содержимое файлов, понять, что они ОДИНАКОВЫЕ. Я не пойму, чего Вы добиваетесь, повторно ставя под сомнение мои умственные способности? Не хотите помогать- промолчите. »
Не поверю. И не промолчу.
Выложите несколько пар таких файлов с кириллическими именами, которые, по Вашему мнению заведомо одинаковые, но которые приложения из указанного списка (Программы для поиска дубликатов файлов (http://www.oszone.net/5896/)) не определяют, как дубликаты.
Проблема решена и корень ее был, весьма вероятно, в службе индексирования Windows. Описание вероятного решения здесь: http://forum.oszone.net/post-2117767-195.html
© OSzone.net 2001-2012
vBulletin v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.