2つのヒストグラムの類似性を評価する方法は?


33

2つのヒストグラムがある場合、それらが類似しているかどうかをどのように評価しますか?

2つのヒストグラムを単に見るだけで十分ですか?単純な1対1のマッピングには、ヒストグラムがわずかに異なり、わずかにシフトする場合、目的の結果が得られないという問題があります。

助言がありますか?


2
「類似」とはどういう意味ですか?たとえば、カイ2乗検定とKS検定は、2つのヒストグラムが同一に近いかどうかを検定します。 しかし、「類似した」とは、場所やスケールの違いを無視して、「同じ形状」を意味する場合があります。 意図を明確にしていただけますか?
whuber

回答:


8

読む価値がある最近の論文は次のとおりです。

Cao、Y。Petzold、L。化学反応システムの確率的シミュレーションにおける精度の限界と誤差の測定、2006年。

このホワイトペーパーでは、確率論的シミュレーションアルゴリズムの比較に焦点を当てていますが、本質的には、2つのヒストグラムの比較方法が主なアイデアです。

著者のWebページからPDFにアクセスできます。


こんにちは、その素敵な紙、PDFリンクを与えるためにありがとう..私は確かにこの論文を通過します。..
ミュウ3.4

12
参照を提供する代わりに、論文の主要なポイントを要約するとよいでしょう。リンクは消滅するため、将来、このジャーナルの非購読者にとってあなたの答えは役に立たなくなる可能性があります(そして、人口の大部分は非購読者です)。
ティム

27

2つのヒストグラムの間には多くの距離測定があります。これらの指標の適切な分類は次の場所で読むことができます。

K. Meshgi、およびS. Ishii、「追​​跡精度を改善するためのグリッドを使用した色のヒストグラムの拡張」、Proc。MVA'15、東京、2015年5月。

最も一般的な距離関数は、便宜上ここにリストされています。

  • L0 または距離

DL0=ih1(i)h2(i)

  • L1、マンハッタン、または都市ブロック距離

DL1=i|h1(i)h2(i)|

  • L=2またはユークリッド距離

DL2=i(h1(i)h2(i))2

  • Lまたはチビシェフ距離

DL=maxi|h1(i)h2(i)|

  • Lまたは分数距離(ミンコフスキー距離族の一部)p

DLp=(i|h1(i)h2(i)|p)1/pおよび0<p<1

  • ヒストグラム交差点

D=1i(min(h1(i),h2(i))min(|h1(i)|,|h2(i)|)

  • コサイン距離

DCO=1ih1(i)h2(i)

  • キャンベラ距離

DCB=i|h1(i)h2(i)|min(|h1(i)|,|h2(i)|)

  • ピアソンの相関係数

DCR=i(h1(i)1n)(h2(i)1n)i(h1(i)1n)2i(h2(i)1n)2

  • コルモゴロフ-スミルノフ発散

DKS=maxi|h1(i)h2(i)|

  • 一致距離

DMA=i|h1(i)h2(i)|

  • クラマー・フォン・ミーゼス距離

DCM=i(h1(i)h2(i))2

  • χ2統計

Dχ2=i(h1(i)h2(i))2h1(i)+h2(i)

  • バタチャリャ距離

DBH=1ih1(i)h2(i)&hellinger

  • 乗和音

DSC=i(h1(i)h2(i))2

  • カルバックリーブラー発散

DKL=ih1(i)logh1(i)m(i)

  • ジェフェリー発散

DJD=i(h1(i)logh1(i)m(i)+h2(i)logh2(i)m(i))

  • Earth Mover's Distance(これは、ビニング情報を距離に埋め込む交通距離の最初のメンバーです。詳細については、上記の論文またはWikipediaのエントリを参照してください。A

DEM=minfiji,jfijAijsumi,jfij jfijh1(i),jfijh2(j),i,jfij=min(ih1(i)jh2(j))そしてからの流れを表し にfijij

  • 二次距離

DQU=i,jAij(h1(i)h2(j))2

  • 二次カイ距離

DQC=i,jAij(h1(i)h2(i)(cAci(h1(c)+h2(c)))m)(h1(j)h2(j)(cAcj(h1(c)+h2(c)))m)および000

これらの距離のいくつかのA Matlabの実装では、私のGitHubリポジトリから入手可能です: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance また、あなたがのためにヨッシRubner、オフィールペレ、マルコCuturiや海浜陵のような連中を検索することができますより多くの最先端の距離。

更新:距離の代替の説明が文献のあちこちにあるので、完全を期すためにここにリストします。

  • キャンベラ距離(別のバージョン)

DCB=i|h1(i)h2(i)||h1(i)|+|h2(i)|

  • Bray-Curtisの非類似度、ソレンセン距離(ヒストグラムの合計が1に等しいため、等しい)DL0

DBC=12ih1(i)=h2(i)ih1(i)+ih2(i)

  • ジャカード距離(すなわち、ユニオンの交差点、別のバージョン)

DIOU=1imin(h1(i),h2(i))imax(h1(i),h2(i))


当サイトへようこそ!この貢献に感謝します。
whuber

リンクは次のとおり
org.jp

おかげで、リストが言うのは素晴らしい、それはヒストグラムのための比較演算子を作成することはできませんが、例えばあるhist1 < hist2
オルハPavliuk

22

この質問に対する標準的な答えは、カイ2乗検定です。KSテストは、ビン化されたデータではなく、ビン化されていないデータ用です。(ビニングされていないデータがある場合は、必ずKS形式のテストを使用しますが、ヒストグラムのみがある場合は、KSテストは適切ではありません。)


基になるデータの分布に関する仮説検定として理解される場合、KS検定がヒストグラムに適切でないことは正しいですが、KS 統計量が2つの同一性の尺度としてうまく機能しない理由はわかりませんヒストグラム。
whuber

Kolmogorov-Smirnov検定がビニングされたデータに対して適切でない理由の説明は有用です。
-naught101

これは、統計的適合評価ほど画像処理では有用ではない場合があります。多くの場合、画像処理では、データのヒストグラムが画像の領域の記述子として使用され、ヒストグラム間の距離が画像パッチ間の距離を反映することが目標です。ヒストグラムを取得するために使用される基礎となる画像データの一般的な母集団統計については、ほとんど、またはまったくまったく知られていない可能性があります。たとえば、方向付けられた勾配のヒストグラムを使用する場合の基本的な人口統計は、画像の実際の内容に基づいてかなり異なります。
エリー

1
naught101の質問はStochtasticによって回答されました:stats.stackexchange.com/a/108523/37373
ラピス

10

コルモゴロフ・スミルノフ検定を探しています。バーの高さを各ヒストグラムのすべての観測値の合計で割ることを忘れないでください。

たとえば、分布の平均が互いに相対的にシフトしている場合、KSテストも差を報告していることに注意してください。x軸に沿ったヒストグラムの変換がアプリケーションで意味をなさない場合、最初に各ヒストグラムから平均値を差し引くことができます。


1
平均値を減算すると、KS統計のヌル分布が変更されます。@David Wrightは、とにかくヒストグラムへのKSテストの適用に対して有効な異議を提起します。
whuber

7

Davidの回答が指摘しているように、KSテストは連続分布を前提としているため、ビン分割されたデータにはカイ2乗テストが必要です。KS検定が不適切である理由(naught101のコメント)については、ここで取り上げる価値のある応用統計文献でこの問題について議論が行われています。

P(x)=19, (0x9)
P(x)=110j=09δ(xj)

-1

両方のヒストグラム間の相互相関(畳み込み)を計算できます。それには、わずかな変換が考慮されます。


1
これはおそらく非常に短いため、自動的に低品質としてフラグが立てられます。現在のところ、それは私たちの基準による答えというよりもコメントです。それを拡張できますか?コメントにすることもできます。
グング-モニカの復職

ヒストグラムはデータのかなり不安定な表現であり、高さのみを使用して確率を表すわけではないため(面積を使用します)、より具体的なガイダンスが提供されない限り、このアプローチの適用可能性、一般性、または有用性を合理的に疑問視するかもしれません。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.