Мой метод поиска точных дубликатов - это командная строка в Windows с Cygwin или Linux.
find /path/to/files/ -name "*.file-extension" -exec md5sum -b {} \; |sort|uniq -w 32 -c|sort -n
В нижней части списка будет отображаться хэп dupe md5 с путем к первому экземпляру файла.
Вы можете найти все копии этого файла с:
find /path/to/files/ -name "*.file-extension" -exec md5sum -b {} \;| grep "MD5HASHCODEHERE"
Где MD5HASHCODEHERE - это код длиной 32 символа.
Однажды я сделал это с 650 000 файлов, чтобы найти все версии тех же файлов в формате 8 gif, и это заняло менее часа. Я не знаю, установлен ли по умолчанию на OSX md5sum. Я могу предложить версию OSX, если это необходимо.
Не знаю, полезно ли это.