2つの多変量分布間の「距離」の測定


28

リソースを探しやすくするために、私がやろうとしていることを説明するための良い用語を探しています。

したがって、ポイントAとBの2つのクラスターがあり、それぞれが2つの値XとYに関連付けられており、AとBの間の「距離」を測定したいとします。 (分布は正常であると仮定できます)。たとえば、XとYがAでは相関しているがBでは相関していない場合、分布は異なります。

直観的には、Aの共分散行列を取得し、Bの各点がそこに収まる可能性を調べ、逆も同様です(おそらくマハラノビス距離のようなものを使用して)。

しかし、それは少し「アドホック」であり、おそらくこれを記述するためのより厳密な方法があります(もちろん、実際には3つ以上の変数を持つ3つ以上のデータセットがあります-私は自分のデータセットのどれかを特定しようとしています外れ値です)。

ありがとう!


なぜダンノ、しかしあなたの投稿を読んだとき、マンテルのテストが私の目の前で点滅した。
ローマンルシュトリック

回答:



16

うーん、Bhattacharyya距離は私が探しているもののようですが、Hellinger距離も機能します。


バタチャリャヤとヘリングに言及し、KLについて話す答えを受け入れます...最後に、あなたの選択は何でしたか、そしてなぜですか?
サイモンC.

1
KLの発散だったと思いますが、それは2010年であり、私の記憶は完璧にはほど遠いです。
エミール

ああそうだと思うが、とにかくありがとう!
サイモンC.

9

ヒューリスティック

  • ミンコフスキー形式
  • 加重平均分散(WMV)

ノンパラメトリック検定統計

  • 2(チー広場)
  • コルモゴロフ・スミルノフ(KS)
  • Cramer / von Mises(CvM)

情報理論の相違

  • カルバックリーブラー(KL)
  • ジェンセン–シャノン発散(メトリック)
  • ジェフリー発散(数値的に安定で対称的)

地上距離測定

  • ヒストグラムの交差点
  • 二次形式(QF)
  • アースムーバー距離(EMD)


0

「統計的差異」のより多くの測定

  • 順列検定(フィッシャーによる)
  • 中央極限定理とスルツキーの定理
  • マン・ホイットニー・ウィルコキシン検定
  • アンダーソン–ダーリングテスト
  • シャピロ・ウィルク検定
  • Hosmer–Lemeshowテスト
  • カイパーのテスト
  • カーネル化されたスタインの不一致
  • ジャカードの類似性
  • また、階層的クラスタリングは、グループ間の類似性の尺度を扱います。グループの類似性の最も一般的な尺度は、おそらく単一の連鎖、完全な連鎖、および平均的な連鎖です。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.