JPEG、PNG、GIFなど、他の形式で複製された約2000個の画像が10000個以上あります。これらの数値は両方とも毎日増加しています。それらの重複を削除する必要があります。そのためには、まずそれらを見つける方法を知る必要があります。
最初に考えたのは、画像のピクセルをチェックし、同じ座標で同じ色のピクセルを持つ他の写真を見つけることでした。ただし、このオプションは常に機能するとは限りません。重複を検索するとしましょう。検索可能なオブジェクトについては、8ビットのPNGファイルを選択します。その画像のすべての複製が見つかりますが、8ビットPNG、時には8ビットGIF、まれにJPEGのみが見つかります(画像のアルゴリズムのせいでしょうか?)。
私の2番目の考えは、これらの画像をすべて複製し、厳密な2色パレット(白黒など)で色を変更し、上記と同じスキャンを実行することでした。それでも、JPEG画像はPNGまたはGIF形式と100%類似していません(上記と同じ理由?)。
3番目の考えは、画像がどれだけ馴染む必要があるかについての割合を減らし、色がどれだけ変化する可能性があるかを増やして、不要な画像の除去をもたらすことでした...
何かご意見は?