カイ二乗距離を使用した2つのヒストグラムの比較


18

顔の2つの画像を比較したい。LBPヒストグラムを計算しました。そこで、これら2つのヒストグラムを比較して、これらのヒストグラムがどれだけ等しいか(0〜100%)を知る必要があります。

このタスクを解決する方法は数多くありますが、LBPメソッドの著者は、ヒストグラムの交差および対数尤度統計よりもカイ二乗距離の方がパフォーマンスが優れていることを強調しています(ローカルバイナリパターンによる顔の説明:顔認識への応用。2004)。

著者は、カイ二乗距離の式も示しています。

i=1n(xiyi)2(xi+yi)

ここで、はビンの数、は最初のビンの値、は2番目のビンの値です。x i y inxiyi

いくつかの研究(たとえば、二次-チーヒストグラム距離ファミリ)で、カイ-二乗距離の公式は次のようになっています。

12i=1n(xiyi)2(xi+yi)

そして、そこhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm私は、カイ二乗距離の式を参照してください。

i=1n(xiyi)2yi

私はそれにこだわった。いくつか質問があります。

  1. どの表現を使用すべきですか?
  2. 差異の結果をどのように解釈すればよいですか?差が0であるということは、両方のヒストグラムが等しいことを意味しますが、両方のヒストグラムがまったく異なる場合はどうすればわかりますか?カイ二乗テーブルを使用する必要がありますか?または、しきい値を使用する必要がありますか?基本的に、差をパーセントにマッピングしたいです。
  3. これら3つの式が異なる理由

yiは、2番目のビンではなく、xiと同じビンの値ではなく、コンパレーター分布の値ですか?
-ReneBt

回答:


7

@SilverfishはPolatAlemdarによる回答の拡張を求めましたが、これは与えられていませんでしたので、ここで拡張してみます。

なぜchisquare distanceという名前なのですか?分割表の検定は に基づいているため、この形式を維持し、距離測定。これは、と、OPの第三式を与える観察し、と解釈フィットテストの良さに、たとえばとして、「これは、離散確率分布で使用される」PolatAlemdarのコメントを説明して期待、など。この3番目の形式は、変数とが非対称であるため、距離関数ではありません。ヒストグラムの比較には、と対称な距離関数が必要です。 xiyixyxy1

χ2=cells(OiEi)2Ei
xiyixyxy、および最初の2つの形式がこれを示します。それらの違いは定数因子のみであり、一貫して1つのフォームを選択する限り重要ではありません(ただし、非対称フォームと比較する場合は、追加の因子バージョンの方が優れています)。ユークリッド距離の2乗とこれらの式の類似性に注意してください。これは偶然ではなく、カイ2乗距離は一種のユークリッド距離の重みです。そのため、OPの式は通常、距離を取得するためにルート記号の下に置かれます。以下ではこれに従います。 11212

カイ二乗距離は、コレスポンデンス分析でも使用されます。そこで使用されているフォームとの関係を確認するには、を行と列の分割表のセルとします。行の合計があり、列の合計がます。行間の距離は、次の式で与えられます。 2行(2つのヒストグラム)のみの場合、これらはOPの最初の式を復元します(ルート記号をモジュロ)。 R C X + J = Σ I X 、I 、J、X I + = Σ jのX I 、J、L K χ 2L K = xijRCx+j=ixijxi+=jxijl,k

χ2(l,k)=j1x+j(xljxl+xkjxk+)2
EDIT

以下のコメントの質問への回答:カイ二乗距離について長い議論がある本は、Michael Greenacre(Chapman&Hall)による "CORRESPONDENCE ANALYSIS IN PRACTICE(Second Edition)"です。この名前は、コンティンジェンシーテーブルで使用されるchisquareとの類似性からきています。どんなディストリビューションがありますか?私はそれを一度も研究したことがありませんが、おそらく(ある条件下では...)およそカイ二乗分布になるでしょう。証明は分割表で行われるものと同様である必要があります。コレスポンデンス分析に関するほとんどの文献は分布理論には含まれていません。いくつかの、おそらく関連するそのような理論を持つ論文はhttp://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023です。こちらもご覧くださいこのサイトの他の関連記事については、https://stats.stackexchange.com/search?q =%22chisquare + distance%22ご覧ください


最後の方程式がカイ二乗距離と呼ばれる理由を尋ねることはできますか?そのように配布されていますか?派生物、またはリンクを提供してください。見つからないようです。
LeastSquaresWonderer

1
上記の私の編集を参照してください。
kjetil bハルヴォルセン

3

このリンクは非常に有用であることがわかりました:http : //docs.opencv.org/2.4/doc/tutorials/imgproc/histograms/histogram_comparison/histogram_comparison.html

理由はよくわかりませんが、OpenCVは、リストされた3番目の式をカイ二乗ヒストグラム比較に使用します。

意味に関しては、0%から100%のように、どのような測定アルゴリズムが境界範囲を提供するかはわかりません。つまり、2つの画像が同じであることを確実に確認できます。相関値1.0またはカイ2乗値0.0。しかし、2つの画像の違いを制限するのは困難です。完全に白い画像と完全に黒い画像を比較すると、数値はInfinityまたは多分Not-a-Numberになります。


2

実際、あなたはあなたのケースに合っていると思うものなら何でも使用できます。最後のものは異なります。とを入れ替えると最後の分布が対称になるため、離散確率分布で使用されます。yxy

他の2つは、ヒストグラムの類似性の計算に使用されます。


1
ヒストグラムの類似性を計算するために他の2つを使用する方法を説明するために、この回答をもう少し拡張することをお勧めします。ドル記号を使用してLatexの数学タイプセットを回答に追加できることに注意してください。たとえば$x$、を生成します。x
シルバーフィッシュ

2
3番目はと対称的であるように見えるため、どのような意味で説明する必要があります。yxy
mdewey

0

OPの要求に応じて、パーセンテージの値(式1の場合):

p=χS100N

pχNS

要求に応じて補完:

この式を計算すると、完全なヒストグラムとの差のパーセンテージを得ることができます。両方のヒストグラムについてこれを計算してから、あるヒストグラムから別のヒストグラムを差し引くと、パーセンテージの違いが生じます。


2
これがどのような質問に対する答えであるかを見るのに苦労しています。詳しく説明してもらえますか?
簡潔

これにより、1つのヒストグラムが完全なヒストグラムとどの程度異なるか(要求に応じてパーセンテージで)が示されます。両方のヒストグラムからこの方程式を計算すると、三角測量に使用されるこの1つの差がわかります。
カルロスバル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.