画像パッチを定性的に比較するための適切なメトリック


11

画像内の小さな正方形のパッチを「一致」させようとしています。一見すると、これら2つの配列のユークリッド距離スタイルの比較を単純に実行して「類似性」の測定値を取得することは合理的に思えます。これは多くの場合正常に機能します(このメトリックによると、「最良の」パッチ(最小値)はクエリパッチと非常によく似ています)。ただし、これが非常に悪い一致を生成する多くの場合があります。たとえば、次の2つのパッチペアがあるとします。

レンガの壁の2つのパッチ、スコア134(これは平均絶対ピクセル差のコンポーネントの合計です):

ソースパッチ ターゲットパッチ

レンガの壁の1つのパッチ、草の1つのパッチ、スコア123です。

https://i.stack.imgur.com/d7lBZ.png https://i.stack.imgur.com/d2TBE.png

人間にとって、草は「明らかに」レンガと一致しませんが、この測定基準はそうではありません。問題は、局所的な統計的変動にあります。

ヒストグラム比較のようなものを使用すると、すべての空間情報が完全に失われます。たとえば、パッチが上部の草と下部のレンガの場合、下部の草と上部のレンガのパッチと正確に一致します(再度、別の「明らかに間違っている」一致)。

これらのアイデアの両方を何らかの方法で組み合わせて、上記のペア1で「類似」と評価されるが、パッチとその垂直ミラーの例では類似していないメトリックはありますか?

どんな提案でも大歓迎です!


1
コンポーネントの合計を取ると、色空間のすべての「空間」情報が失われます。たとえば、2つのベクトルのユークリッド距離を計算するなど、コンポーネントを個別に評価しますか?
Geerten 2012

回答:


2

重要なアイデアは、次のとおりです。色情報に問題はありません。それだけでは不十分です。つまり、複数の機能セットを組み合わせることです。

このあいまいさを解決するために複数の機能を試すことができます。機能セットに関する限り、以下を使用できます。

  1. 色(MPEG7のドミナントカラーなど)またはColor Historgram
  2. テクスチャー(フィルターバンク応答のいずれかの形式)または
  3. エッジヒストグラム

最初の比較として、私は最初に純粋なレンガのパッチと純粋な草のパッチを区別したいと思います。このため、色は間違いなく最も潜在的な要素です。

機能を組み合わせてより堅牢な分類を行う

私はドミナントカラー(を使用しますが、1つだけではありません)またはキーカラーを使用してクラスターを形成します。クラスターヘッドの位置を確認します。

クラスターヘッドが両方とも予想される領域内にある場合、クラスは通常簡単に検出できます。それらが灰色の領域に分類される場合、クラスはそこに属します。灰色の領域にある場合は、別の機能が必要です。

同じ方法で、テクスチャマトリックスを使用して個別に分類し、両方のスコアを組み合わせて、結果が意味をなすようにすることができます。

空間問題への対処

具体的には、パッチが半分のレンガと半分の芝生であるその部分を持つことができるとわかったとき。これ以上の追加機能や別のマトリックスは必要ないと思います。これは2つの方法で処理できます。

1.複数のメンバーシップパッチを異なるクラスとして保持します。 例えば、離れてからbirck-onlyクラスおよびgrass-onlyクラス、あなたも持つことができますhalf-brick-half-grass-verticalし、half-brick-half-grass-horizontal合計4つのクラスとして。これは、前に説明したクラスタリング手法を使用して簡単に分類できます。

2.マルチスケール分類を追加します。 たとえば、パッチが灰色の領域にある場合、パッチを左と右の2つの部分に分割できます。同じ方法で、上と下を分けることもできます。これで、この「半分」に同じ分類を適用できます。理想的には、上記の機能は、フルパーツ間の機能の類似性を比較するためにスケーラブルにできるようにする必要があります(たとえば、ドミナントカラーはサイズに関係なく同じになる可能性があります)。

より多くのクラス(パート1のように)またはより多くのレベル(パート2のように)を追加することは簡単です。上限には2つの要因があります。追加の除算によって分類に値が追加されなくなるか、過度のノイズによって分類にあいまいさが効果的に導入されます。ここで停止します。


2

まず、2つの画像と3つの測定値では、最適な比較指標を定義するために使用できる統計モデルの種類を確認するには十分ではありません。

方法や手がかりについて、テクスチャー認識用紙を見てみるとよいでしょう。アクティブなフィールドです。

価値があることについて、私はいくつかの知覚ハッシュ関数(DCTおよびランダムプロジェクションベース)テストを実行し、いわゆるSIFT記述子を使用して少し試してみました。これらの関数は、クラス間距離とクラス内距離を分離できますが、3つの画像からは何も結論付けることができません。

githubのコード。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.