Компьютерный форум OSzone.net  

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)
-   Хочу все знать (http://forum.oszone.net/forumdisplay.php?f=23)
-   -   [решено] Программа для поиска дублей с кириллическими именами (http://forum.oszone.net/showthread.php?t=240603)

gorill 14-08-2012 20:15 1970279

Программа для поиска дублей с кириллическими именами
 
В хранилище (8 Гб размером) имеется большое количество файлов (средний размер файла 500 Кб) с расширениями doc, fb2, rtf. Задача: Подсказать программу, способную найти дубли (которые точно там имеются). Утилиты, перечисленные здесь http://www.oszone.net/5896/, а также соответствующий модуль Auslogics практически бесполезны, т.к. имена всех файлов на русском и они их не воспринимают. Единственно DupKiller через пень-колоду нашел отдельные дубли (ручная проверка тогда еще объема в 1 Гб показала, что найдено всего около 30% дублей, включая и ложные срабатывания).

apozlevich 14-08-2012 22:24 1970363

gorill, странно, что те программы не работают. Могу написать свой велосипед - обращайтесь в скайп apozlevich.

rover_61eg 14-08-2012 22:58 1970384

Цитата:

Цитата gorill
т.к. имена всех файлов на русском и они их не воспринимают. »

Аж не вытерпел, попоробовал.


Iska 15-08-2012 01:52 1970457

Угу. Сам пользую CloneSpy. Либо у автора особое представление о дубликатах, либо что-то с настройками.

gorill 15-08-2012 06:27 1970481

Цитата:

Цитата Iska
Либо у автора особое представление о дубликатах »

Как Вы себе видите это самое "особое представление"? Есть два или более файла с одинаковым именем в 99% и в 90% случаев с одинаковым размером и однозначно с одинаковым расширением. Это не дубликаты? А что это тогда? Разъясните подробнее такой грамотный такому бестолковому.
Цитата:

Цитата Iska
что-то с настройками »

И по умолчанию и по расширению и по слову в имени, да как угодно.
Цитата:

Цитата rover_61eg
попоробовал »

А уж сколько я пробовал...
Если кто-то думает, что я создал тему от нечего делать, тот может пойти покурить, ибо эта проблема достала по самое немогу- место в хранилище ограничено, поэтому вопрос дублей стоит остро. Как происходит : Работаю с файлами, вот случайно обнаруживаю два дубля, и еще два другого файла и т.д. Запускаю утилиты НЕ УДАЛЯЯ случайно найденных и получаю в ответ, что дублей не найдено. Даже тех, что я вижу перед собой.

Amigos 15-08-2012 07:14 1970486

тотал командер/поиск:

K.A.V. 15-08-2012 10:46 1970526

Цитата:

Цитата gorill
Как Вы себе видите это самое "особое представление"? »

Цитата:

Цитата gorill
Есть два или более файла с одинаковым именем в 99% и в 90% случаев с одинаковым размером и однозначно с одинаковым расширением. Это не дубликаты? »

Если я правильно понимаю назначение данных программ, то "дубликатом" являются файлы, которые на 100% идентичны по содержимому (а не по "внешности"), у файлов подсчитывается контрольная сумма файла, если файл с идентичной контрольной суммой уже был при поиске, то выводятся данные, что найден дубликат

Iska 15-08-2012 14:46 1970688

Цитата:

Цитата gorill
вот случайно обнаруживаю два дубля, и еще два другого файла и т.д. »

1. Наименьший размер дублей каков?
2. Каким образом Вы сами определяете, что это дубликаты?

gorill 15-08-2012 20:46 1970899

Цитата:

Цитата Iska
1. Наименьший размер дублей каков? »

Не менее 200 Кб
Цитата:

Цитата Iska
2. Каким образом Вы сами определяете, что это дубликаты? »

Эти файлы представляют собой методические и педагогические материалы, художественные книги, инструкции к приборам, датчикам и т.д. И я сам и другие пользователи частенько скидывают одинаковые материалы и Вы не поверите, но я читать обучен и могу, прочитав имя и содержимое файлов, понять, что они ОДИНАКОВЫЕ. Я не пойму, чего Вы добиваетесь, повторно ставя под сомнение мои умственные способности? Не хотите помогать- промолчите.
Цитата:

Цитата Amigos
тотал командер »

О нем я и не подумал...Спасибо. Испытаю

rover_61eg 15-08-2012 21:20 1970916

Цитата:

Цитата gorill
прочитав имя и содержимое файлов, понять, что они ОДИНАКОВЫЕ. »

Пример1
Если есть два файла один в djvu, а другой в пдфе и оба содержат одинаковый скан одного и того же документа.
Пример 2
Допустим имеем 2 документа отсканенные в разном разрешении в пдф, но названные одинаково и положенные в разные папки.
С точки зрения человека - информация в этих фалах одинаковая. С точки зрения "компьютера" - нет.

Просто фраза про
Цитата:

Есть два или более файла с одинаковым именем в 99% и в 90% случаев с одинаковым размером и однозначно с одинаковым расширением. Это не дубликаты?
трактуется не однозначно.
10 % файлов с неодинаковым размером не дубликаты. Одинаковое имя - вообще не признак.

Iska 15-08-2012 21:49 1970927

Цитата:

Цитата gorill
…и Вы не поверите, но я читать обучен и могу, прочитав имя и содержимое файлов, понять, что они ОДИНАКОВЫЕ. Я не пойму, чего Вы добиваетесь, повторно ставя под сомнение мои умственные способности? Не хотите помогать- промолчите. »

Не поверю. И не промолчу.

Выложите несколько пар таких файлов с кириллическими именами, которые, по Вашему мнению заведомо одинаковые, но которые приложения из указанного списка (Программы для поиска дубликатов файлов) не определяют, как дубликаты.

gorill 28-03-2013 16:42 2120821

Проблема решена и корень ее был, весьма вероятно, в службе индексирования Windows. Описание вероятного решения здесь: http://forum.oszone.net/post-2117767-195.html


Время: 01:24.

Время: 01:24.
© OSzone.net 2001-