Создание главного фотоархива - импорт фотографий и обнаружение дубликатов - Фотопедия
1 голос
/ 08 января 2015

У меня 15 лет или цифровые фотографии, и я нахожусь в процессе создания «главного архива». Фотографии распределяются по нескольким жестким дискам с различной структурой папок и множеством дублирующих фотографий. Я ищу скрипт или готовое приложение, которое будет сканировать жесткий диск на наличие любых фотографий (общие форматы файлов, в основном JPEG) и дать мне список фотографий, которых нет в основном архиве. Затем я могу вручную добавить фотографии в архив (в значительной степени это необходимо сделать вручную, чтобы я мог классифицировать их по ходу работы, но я согласен с этим).

Я много раз искал в Интернете и не могу найти простой способ сделать это (что меня удивляет - я не могу быть единственным человеком в мире с грязной коллекцией фотографий на нескольких жестких дисках, желающей разобраться в этом! ). Большинство программ поиска дубликатов фокусируется на поиске дубликатов - я хочу найти ИСКЛЮЧЕНИЯ, отсутствующие в главном архиве. Программное обеспечение для синхронизации хорошо умеет находить исключения (отсутствующие файлы), но большинство ожидает, что структуры папок будут одинаковыми - поскольку за прошедшие годы я попробовал несколько методов категоризации, структуры папок не идентичны.

99% + фотографий будут бит-идентичными копиями с одинаковыми временными метками. Мне не нужно беспокоиться о получении файловых хешей / контрольных сумм или поиске измененных версий того же файла или визуально похожих фотографий. Кроме того. делать это на 1 ТБ фотографий было бы слишком долго.

Кто-нибудь может придумать, как это сделать? Я искал некоторое время и не нашел хорошего способа сделать это. Я знаю, что какое-то программное обеспечение для управления библиотекой фотографий (включая Picasa) выполняет проверку дубликатов, но я на самом деле не хочу передавать управление папками в Picasa - я пробовал это несколько лет назад, и он перепутался с метаданными, изменяя даты изменения файлов и делая Весь процесс управления сложнее в целом. Если кто-нибудь знает о пакете управления фотографиями с открытым исходным кодом, который НЕ будет обеспечивать собственную структуру библиотеки, пожалуйста, сообщите мне.

Кстати, Windows - моя целевая платформа.

Заранее спасибо.

Ответы [ 2 ]

2 голосов
/ 07 февраля 2015

Хеши на самом деле являются ключом к тому, чтобы сделать это и сделать это правильно.

Если вы хотите немного испачкать руки, это будет легко сделать в виде сценария оболочки:

  • Создайте список хэшей каждого файла в вашем главном архиве. Назовите этот список "MA (" главный архив ").
  • Создайте список из двух полей хэшей и путей к каждому файлу в других ваших архивах. Cal этот список OA («другие архивы»).
  • Извлечение списка хэшей в OA. Назовите этот список OH («другие хеши»).
  • Вытащите список всех хэшей в OH, которых нет в OA. (С макушки головы, fgrep -xv -f MA OH). Назовите это ML («пропущенный список»).
  • Извлечь список каждого файла в OA, который соответствует строке в ML. (fgrep -f ML OA | awk -f '{ print $2 }').

Конечным результатом последней команды будет список файлов в других ваших архивах, которые не совпадают с файлами в мастере.

Для Windows есть пакет под названием Cygwin , который включает в себя все утилиты, необходимые для этого (bash, find, sha1sum, grep и awk ).

0 голосов
/ 08 января 2015

Вы можете попробовать посмотреть на rsync. Если вы установите его правильно, а затем включите флаг, который будет выводиться так, как будто он передает файлы, но на самом деле это не так, он, вероятно, сообщит вам, какие файлы отсутствуют.

Добро пожаловать на сайт Фотопедия, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...