RGBヒストグラムだけを使用しないことを検討することをお勧めします。
画像の2次元ハールウェーブレットを取得し(これは実際よりもはるかに簡単で、平均化が多く、係数の重み付けに平方根を使用しています)、kの最大値を保持すると、画像のより良いダイジェストを取得できます。ウェーブレットの重み付き係数をスパースベクトルとして正規化し、保存してサイズを小さくします。重要度を下げてクロミナンス情報をサンプリングできるように、少なくとも事前に知覚重みを使用してRGとBを再スケーリングするか、YIQ(またはYCoCg、量子化ノイズを回避する)に切り替えることをお勧めします。
これで、これらのスパース正規化ベクトルの2つのドット積を類似性の尺度として使用できます。最大のドット積を持つ画像ペアは、構造が非常に似ています。これには、サイズ変更、色相のシフト、透かしへの耐性があり、実装が簡単でコンパクトになるという利点があります。
kを増減することで、ストレージと精度をトレードオフできます。
単一の数値スコアによるソートは、この種の分類問題にとって扱いにくいものになります。あなたがそれについて考えるならば、それは画像が1つの軸に沿ってのみ「変化」することができることを必要とするでしょう、しかしそれらはそうではありません。これが特徴のベクトルが必要な理由です。ハールウェーブレットの場合、画像内で最も鋭い不連続が発生するおおよその場所です。画像間の距離はペアで計算できますが、距離の測定基準しか得られないため、線形順序付けでは3つの画像の「三角形」をすべて均等に表現する方法がありません。(つまり、すべて緑の画像、すべて赤の画像、すべて青の画像を考えてください。)
つまり、問題の実際の解決策では、イメージの数にO(n ^ 2)演算が必要になります。一方、メジャーを線形化することが可能であった場合、O(n log n)、またはメジャーがたとえば基数ソートに適している場合はO(n)のみを必要とする可能性があります。そうは言っても、実際にはセット全体をふるいにかける必要がないため、O(n ^ 2)を費やす必要はありません。あるしきい値よりも近いものを見つける必要があるだけです。したがって、スパースベクトル空間を分割するいくつかの手法のいずれかを適用することにより、すべての画像をすべての画像に対して単純に比較するよりも、「特定のしきい値よりも類似している画像のkを見つける」問題のはるかに速い漸近法を得ることができます。おそらく必要です...正確に要求されたものではないにしても。
いずれにしても、私が数年前に保存していたさまざまなテクスチャの数を最小限に抑えようとするときに個人的にこれを有効に使用しましたが、このスペースには多くの研究ノイズがあり、その効果を示しています(この場合はそれをヒストグラム分類のより洗練された形式に変換します):
http://www.cs.princeton.edu/cass/papers/spam_ceas07.pdf
検出の精度を高める必要がある場合は、minHashおよびtf-idfアルゴリズムをHaarウェーブレット(またはヒストグラム)と共に使用して、編集をより堅牢に処理できます。
http://cmp.felk.cvut.cz/~chum/papers/chum_bmvc08.pdf
最後に、スタンフォードは、この種のアプローチのよりエキゾチックな変形に基づく画像検索を備えています。ウェーブレットからより多くの特徴抽出を行って、回転または拡大縮小された画像のセクションなどを見つけることに基づいていますが、これはおそらく作業量をはるかに超えています。したいと思います。
http://wang14.ist.psu.edu/cgi-bin/zwang/regionsearch_show.cgi