分布間のコルモゴロフ距離の動機


45

2つの確率分布がどれほど似ているかを測定する方法はたくさんあります。(異なるサークルで)人気のある方法は次のとおりです。

  1. コルモゴロフ距離:分布関数間の距離。

  2. Kantorovich-Rubinstein距離:リプシッツ定数を持つ関数の2つの分布に対する期待値の最大差1。これは分布関数間のL1距離でもあります。

  3. 境界付きリプシッツ距離:KR距離に似ていますが、関数は絶対値がである必要があります1

これらには異なる利点と欠点があります。3.の意味での収束のみが実際に分布の収束に正確に対応します。1.または2.の意味での収束は、一般にわずかに強くなります。(特に、X n = 1の場合Xn=1nは確率1で、は分布で0Xn収束し0が、コルモゴロフ距離では収束しません。ただし、制限の分布が連続している場合、この病理は発生しません。)

初等確率または測度理論の観点から見ると、1はあるセットに含まれる確率を比較するため、非常に自然です。一方、より洗練された確率論的視点は、確率よりも期待に集中する傾向があります。また、機能分析の観点から、いくつかの機能空間との双対性に基づいた2または3のような距離は非常に魅力的です。

しかし、私の印象(間違っていれば私を修正してください!)は、統計では、コルモゴロフ距離が分布の類似性を測定するための通常好ましい方法であるということです。理由の1つは推測できます:分布の1つが有限のサポートで離散的である場合、特に実際のデータの分布である場合、モデル分布までのコルモゴロフ距離は計算が簡単です。(KR距離は計算がやや​​難しく、BL距離は実際的にはおそらく不可能です。)

私の質問(最終的に)は、統計的な目的でコルモゴロフ距離(またはその他の距離)を優先する他の理由(実用的または理論的)がありますか?


1
私は質問が好きです、質問の中で可能な答えのほとんどがすでにあるかもしれません...あなたが望む答え/開発のタイプのアイデアを持っていますか?
ロビンジラール

1
特にそうではありません。私は統計をまったく知らないので、質問する理由の1つは、統計学者がさまざまなメトリックを選択するために使用する基準を知ることです。1の1つの重要な実用的な利点を既に説明したので(実際に計算できます)、理論的な動機に特に興味があります。コルモゴロフ距離の推定値によって提供される情報は、アプリケーションで頻繁に直接使用されるのでしょうか?
マークメックス

私は以前のコメントを多かれ少なかれ明白に終えることを忘れていました。もしそうなら、どのように?
マークメックス

上記の長いコメントを読み直したところ、最後に挙げた質問は理論と同じくらい実用的な考慮事項であることがわかりました。いずれにせよ、それは私が知りたいと思う種類の問題の一つです。
マークメックス

網羅的であることを意図していないことは知っていますが、アンダーソンダーリンの統計を追加できます(en.wikipedia.org/wiki/Anderson%E2%80%93Darling_testを参照)。これは私がイェーガーとWellner(参照fromo紙思い出さ製projecteuclid.org/...を)extands /一般化アンダーソン最愛統計(およびテューキーの特定の高い批判に含める)...
ロビンジラール

回答:


12

マーク、

私がKSの使用について知っている主な理由は、それが単変量の経験的プロセスにおけるグリヴェンコ-カンテリの定理から自然に生じるからです。私がお勧めする参考文献は、AWvan der Vaart「漸近統計」、ch。19.より高度なモノグラフは、Wellnerとvan der Vaartによる「Weak Convergence and Empirical Processes」です。

2つの簡単なメモを追加します。

  1. 単変量分布で一般的に使用される距離のもう1つの尺度は、L ^ 2距離であるCramer-von Mises距離です。
  2. 一般に、ベクトル空間では異なる距離が使用されます。多くの論文で関心のある空間は洗練されています。非常に良い紹介は、ビリングスリーの「確率測定の収束」です。

もっと具体的に言えないならおIびします。これがお役に立てば幸いです。


2
メモに関する2つの簡単なメモ。1. C-vM距離は、正確にはコルモゴロフ(L ^∞)および(単変量)KR(L ^ 1)距離のL ^ 2いとこであり、したがってそれらの間を補間します。2. KRとBLの距離について言及しなかった利点の1つは、より自然に高次元の空間に一般化できることです。
マークメッケス

1.に関しては、それは正しい。2.に関して上記の距離はすべて、R ^ nに引き継がれますが、距離に基づいた一般的なノンパラメトリックテストについては知りません。存在するかどうかを知ることは興味深いでしょう。
ギャッピー

8

計算の問題は、私が聞いた中で最も強い議論です。コルモゴロフ距離の唯一の最大の利点は、ほとんどすべてのCDFの分析を非常に簡単に計算できることです。ガウスの場合を除いて、他のほとんどの距離メトリックには閉形式の式はありません。

サンプルのコルモゴロフ距離には、CDFが与えられた既知のサンプリング分布があり(他のほとんどはそうではないと思います)、最終的にはウィナープロセスに関連します。これは、サンプルを分布または2つのサンプルを相互に比較するためのコルモゴロフ-スミルノフ検定の基礎です。

より機能的な分析のノートでは、supノルムは(おっしゃるように)基本的に均一な収束を定義するという点で素晴らしいです。これにより、点収束を意味する標準収束が得られるため、関数シーケンスの定義方法が賢明な場合は、RKHS内で作業し、同様に提供するすべての優れたツールを使用できます。


8

要約すると、私の答えは次のとおりです。明示的な表現を持っているか、距離がどのように測定されているか(それがどの程度の差を与えるか)を理解できる場合、それがより良いものを言うことができます。このようなテストを分析および比較する他の補完的な方法は、ミニマックス理論です。

最後に、いくつかのテストはいくつかの選択肢に適したものであり、他のテストにはいくつかのものがあります。代替の所定のセットについて、最悪の場合にテストに最適な特性があるかどうかを示すことがいつか可能です:これはミニマックス理論です。


いくつかの詳細

したがって、2つの異なるテストの特性については、ミニマックスの代替セット(そのような代替物が存在する場合)、つまり(DonohoとJinの単語を使用して)「最適な検出境界」http:// projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492

距離ごとに移動させてください:

  1. 経験的累積分布関数と累積分布関数の差の上限を計算して、KS距離を取得します。前提条件であるため、ローカルの代替(cdfのローカルな変更)に非常に敏感になりますが、グローバルな変更ではそうではありません(少なくともcdf間のL2距離を使用すると、ローカルではなくなります(私はドアを開けますか?))。ただし、最も重要なことは、cdfを使用することです。これは非対称性を意味します。分布の尾部の変化をより重要視します。

  2. Wasserteinメトリック(Kantorovitch Rubinsteinの意図は?) http://en.wikipedia.org/wiki/Wasserstein_metricは遍在しているため、比較が困難です。

    • W2の特定のケースでは、http: //projecteuclid.org/DPubS?service = UI&version = 1.0verb = Display&handle = euclid.aos / 1017938923で使用されており、cdfの逆数へのL2距離に関連しています。私の理解では、それは尾にさらに大きな重みを与えますが、それについてもっと知るために論文を読むべきだと思います。
    • 密度関数間のL1距離の場合、データからあなたの密度関数を推定する方法に大きく依存しますが、そうでなければ尾を重要視しない「バランスのとれたテスト」のようです。

答えを完成させるコメントを思い出して拡張するには:

網羅するつもりはなかったが、Anderson darling統計を追加できることは知っている(http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_testを参照)。これにより、JagerとWellnerからの論文(http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721を参照)を思い出させました。テューキーに対する高い批判)。幅広い代替案については、より高い批判がすでにミニマックスであることが示されており、同じことがジャガーとウェルナーがその拡張について行っています。コルモゴロフ検定でミニマックス特性が示されたとは思わない。とにかく、あなたのテストがミニマックスである代替のタイプを理解することは、その強さがどこにあるかを知るのに役立ちますので、上の論文を読むべきです。


1
はい、私はカントロビッチとルビンシュタインの距離をL ^ 1 Wasserstein距離またはW1とも呼びます。他の多くの名前でも同様です。
マークメッケス

3
ワッサーシュタイン距離に不慣れな人のために、これとgappyの答えを読む人に明確にするために:L ^ 2ワッサーシュタイン距離(W2)はCramer-von Mises距離と同じではありません
マークメッケス

4

FF

FF^

supx|Fn(x)F^(x)|.
F^F^=F

3

コルモゴロフ・スミルノフ検定を使用する追加の理由を説明することはできません。しかし、それを使用しない重要な理由を説明できます。分布の裾にうまくフィットしません。この点に関して、優れた分布フィッティングテストはアンダーソンダーリングです。2番目に良い点として、カイ二乗検定はかなり良いです。この点で、どちらもKSテストよりもはるかに優れていると見なされます。


2

機能分析と測定理論の観点から、タイプの距離は、関数の空間で測定可能なセットを定義しません(無限次元空間は、計量球被覆の可算加算を失います)。これは、選択肢2および3の距離の測定可能な解釈を完全に失格にします。Lp

もちろん、コロモゴロフは、特に私自身を含め、私たちが投稿した誰よりもずっと明るいので、これを予想していました。巧妙な点は、KSテストの距離は多様ですが、測定可能なセットを定義するために均一なノルム自体は使用されないことです。むしろ、セットは、観測値で評価された分布間の差に対する確率的フィルタリングの一部です。これは、停止時間の問題と同等です。L0

要するに、選択1の均一なノルム距離が望ましいのは、それが示すテストが停止時間の問題と同等であり、それ自体が計算上扱いやすい確率を生成するからです。選択肢2と3が測定可能な機能のサブセットを定義できない場合。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.