Как мне найти дубликаты фотографий в очень большом пуле данных (от десятков до сотен гигов)? - Фотопедия
16 голосов
/ 08 августа 2012

Может кто-нибудь предложить хорошую утилиту для обнаружения дублирования фотографий, которая хорошо работает, когда я имею дело с данными объемом около 100 ГБ (собранными за эти годы)?

Я бы предпочел что-то, что работает в Ubuntu.

Заранее спасибо!

Редактировать: Есть ли инструмент, который поможет мне реорганизовать мою коллекцию и удалить дубликаты после их обнаружения?

Edit2: сложная часть состоит в том, чтобы выяснить, что делать, когда у меня будет вывод, состоящий из тысяч дублирующихся файлов (например, вывод fdupes).

Это не очевидно, если я все еще могу безопасно удалить каталог (то есть, если каталог может содержать уникальные файлы), эти каталоги являются подмножествами других каталогов и так далее. Идеальный инструмент для этой проблемы должен уметь определять дублирование файлов, а затем предоставлять мощные средства реструктуризации ваших файлов и папок. Выполнение слияния с помощью жестких ссылок (как это делает fslint) действительно освобождает дисковое пространство, но не решает основную проблему, которая привела к дублированию для начала, то есть к плохой организации файла / каталога.

Ответы [ 6 ]

7 голосов
/ 10 августа 2012

ImageMagick на помощь. Я думаю, что первым шагом к любому решению является уменьшение размера вашей коллекции. Если вы хотите сравнить фотографии по их содержимому , особенно если некоторые из них являются слегка измененными версиями друг друга, очень хорошим началом будет сокращение их до миниатюр, а затем сравнение миниатюр. Это особенно полезно, когда вы хотите найти почти одинаковые фотографии и «игнорировать» несущественные различия во время сравнения.

На высоком уровне я предлагаю вам:
1 - Используйте инструмент ImageMagick mogrify , чтобы уменьшить фотографии до миниатюр. Это займет некоторое время, но сделает шаги сравнения намного быстрее и точнее.
2- Используйте инструмент сравнения ImageMagick, который позволяет установить для сравнения порог , т. Е. Он позволяет находить фотографии, которые похожи на 85%. Вы хотели бы провести контролируемый эксперимент, чтобы найти пороговое значение, которое вам больше всего нравится.

4 голосов
/ 10 августа 2012

Просмотр / организатор фотографий с открытым исходным кодом Geeqie имеет мощную функцию поиска дубликатов . Он может использовать несколько разных стратегий для поиска дубликатов:

  • Имя файла (чувствительно к регистру или нечувствительно)
  • Размер файла
  • Дата файла
  • Размеры изображения
  • Контрольная сумма MD5.
  • Аналогичное содержание изображения (с несколькими пороговыми значениями)

Это дает список результатов, который может включать миниатюры, чтобы вы могли подтвердить вручную.

Это будет , вероятно, будет медленным для тысяч файлов, но я думаю, что просто использовать его и дать ему поработать несколько дней или что-то еще, возможно, меньше усилий в целом, чем найти или сделать что-то специально для этого случая если совпадение контрольной суммы - это все, что вам нужно.

3 голосов
/ 08 августа 2012

Есть небольшая утилита под названием "fdupes" , которая может делать то, что вы хотите?

Существует также другая утилита с именем "fslint" , которую вы также можете попробовать. (У этого есть GUI).

1 голос
/ 20 марта 2014

dupeGuru Picture Edition - настраиваемый искатель дубликатов изображений для Windows, Mac OS X и Linux.

Существует несколько версий dupeGuru (стандартные, музыкальные и графические издания), а редакция изображений позволяет находить визуально похожие изображения с помощью алгоритма сравнения растровых изображений , среди других методов (например, оригинальное изображение EXIF метка времени, или файлы просто идентичны).

Имеет множество других полезных функций, таких как исключенные папки, поддержка библиотек iPhoto / Aperture и значительные настройки того, как он обнаруживает дубликаты и что с ними делает.

0 голосов
/ 10 августа 2012

Существует приложение под названием "bleachbit", которое находит дубликаты файлов по размеру, имени и другим фильтрам. Вы можете установить его из менеджера пакетов synapctic в Ubuntu.

0 голосов
/ 09 августа 2012

Что вы подразумеваете под дубликатами фотографий? Вы имеете в виду файлы, которые идентичны, скажем, просто скопированы дополнительное время или два? или вы имеете в виду фотографии, которые «выглядят» одинаково.

Если вы имеете в виду идентичные файлы, вы можете использовать 'shasum' для всех файлов, затем упорядочить результаты и найти уникальные строки с 'uniq' и запустить 'diff', чтобы увидеть, что было удалено. Все просто в оболочке Ubuntu.

Добро пожаловать на сайт Фотопедия, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...