名前の類似性に基づいてファイルの重複の候補を見つける方法は？

類似の画像や写真（imagedupe）も音声ファイルも検索していません！

ここには多くのメディアデータがあり、ファイル名に基づいて重複を見つけたいと思います。fdupesなどがあることは知っていますが、ここでは私の場合はうまくいきません（たとえば、同じデータの再エンコード）。文字列の類似性は難しい作業であると想像できますが、「the and and of」という単語の情報が「plant、pirate」などよりも少ないという事実に基づいて、私はこのようなことをする必要があることを知っています。そのような方法ですべての重複を見つけることはできません。数字も単語で書くことができ、キャメルケースや1337の名前も難しい候補になるかもしれません。しかし、似たようなものがすでに考え出されているのではないかと思いました。

私の最初の試みはこれです：

最初に関連するすべての単語を抽出します。

find . -type f -exec basename {} \; | sort | tr "\n" " " | sed 's/[\._\-]/ /g' | tr " " "\n" | sort | uniq -c
次のような単語を除外します：「and、the、...」
残りのリストの各単語について、次のように調べます

find . -iname $word -type f

linux find filenames

— 数学
ソース

各メディアファイルのメタデータを使用してこれを行う方がおそらく簡単です。その多くは、別の形式に再エンコードされた場合でも保持される傾向があります。たとえば、日付、時刻、サイズ、カメラのモデル、写真の色。

— ブライアン

glimpseそして、agrep心にスプリング。

— ミッケ
ソース

はい、tr（すべてを小文字に変換するなど）とともに、これは単語を減らして一致を改善するための優れたツールです。

— 数学