コルモゴロフ・スミルノフ検定を2次元以上に一般化できないのはなぜですか?


9

質問はそれをすべて言います。KSを2以上の次元に一般化できないこと、および数値レシピのような有名な実装が単に間違っていることの両方を読みました。なぜそうなのか説明していただけますか?


論文の引用された(私の回答で)セクションに基づいて、いくつかのタグ(2変量、経験的、およびcdf)を追加しました。
Glen_b-モニカを2014

pedrofigueira-私は自分の回答に大幅な変更を加えました(私のオリジナルは間違っていました。申し訳ありません)。複数の多変量KSテストへの参照を返すつもりなので、さらに編集を加える可能性があります。
Glen_b-モニカを

@Glen_bすべての時間と労力をありがとうございました!
ペドロフィゲイラ2014年

回答:


13

問題の段落の関連部分を引用することは正当であると私は信じています。

3. KSテストは、2次元以上には適用できません。多くの場合、天文学者は、線に沿ってではなく、平面またはそれ以上の次元に分布する点を持つデータセットを持っています。天文学のいくつかの論文は、2次元のKSテストを提示することを目的としており、1つは有名なボリュームの数値レシピで再現されています。ただし、明確に定義されたEDF間の距離を計算できるようにポイントを順序付ける一意の方法がないため、EDFベースのテスト(KS、AD、および関連するテストを含む)を2次元以上に適用することはできません。いくつかの順序付け手順に基づいて統計を作成し、2つのデータセット(または1つのデータセットと曲線)間の最高距離を計算できます。ただし、結果として得られる統計の重要な値には分布がありません。

述べたように、これは強すぎるようです。

1)である二変量分布関数は、からへの写像です。つまり、関数は0と1の間の単変量の実数値を取ります。これらの値-確率-は確かに「順序付け」されています-そしてこれ(関数の値)はECDFベースのテストで比較する必要があるものです。同様に、ecdf、は、2変量のケースで完全に適切に定義されています。F(x1,x2)=P(X1x1,X2x2)R2[0,1]F^

テキストが示唆するように、必ずしもそれを一変量結合変数の関数に変換する必要があるとは思いません。あなたは、単に計算と、すべての必要な組み合わせで、その差を計算します。FF^

2)しかし、それが配布不要であるかどうかの問題に関して、彼らはポイントを持っています:

a)明らかに、そのような検定統計量はマージンの変換の変更によって変更されません。つまり、2変量の独立したユニフォームの検定として構築された場合、で同等に機能します。また、独立のテスト、ここでです。その意味で、それは配布フリーです(「マージンフリー」と言うかもしれません)。U=(U1,U2)(X1,X2)Ui=Fi(Xi)

b)しかし、より一般的には、KS統計の単純なバージョン(先ほど説明したような)は、より一般的にはディストリビューションフリーではないという根本的なポイントがあります。任意に単純に変換することはできません。UX=g(U)

私の答えの以前のバージョンでは、私は言った:

問題はありません、問題ありません

それは間違っている。今述べたように、2変量の独立したユニフォームからのマージンだけでなく、変更がある場合、確かに問題があります。ただし、これらの問題は、コルモゴロフ-スミルノフ統計の2変量/多変量バージョンを生成する多くの論文でいくつかの方法で検討されており、その問題に悩まされていません。

私は戻ってきて、時間が許せばすぐにそれらの参照のいくつかとそれらがどのように機能するかについてのいくつかの議論を追加するかもしれません。


この答えは明らかに正しいですが、注意してください。KSテストを使用できるということは、使用する必要があるという意味ではありません。通常、はるかに優れた(より強力な)テストがあります。
kjetil b halvorsen 2014年

確かに-それはどの代替案が興味があるかに依存しますが。
Glen_b-モニカを2014

1
この答えはよくわかりません。多くの天文データセット(および他の多くの小さな次元のデータセット)には、本質的に意味のある座標系が付属していないと思います。したがって、ポイントが「すでに注文されている」というあなたの主張は、そのような状況では無効になります。KS統計が場所を特定するために使用される座標から独立していることを示すことができれば、救助される可能性があります。2次元以上の場合はそうではないと思いますが、間違いかもしれません。
whuber

1
@whuber私のエラーに対する非常に親切な対応に照らして、大幅な変更を加えました。長期的にはより役立つ答えを作ることを期待して、参照や詳細を追加するときに、さらに変更を加える可能性があります。
Glen_b-モニカを2014

(+1)グレン、この返事を広げて、より微妙なものにしてくれてありがとう。私はOPの疑わしい品質のリファレンスを見つけましたが(最初は仮説テストの意味を誤って解釈しています)、最終的には「ブートストラップが救いになり、特定の多次元統計と調査中の特定のデータセットの有意水準が数値計算されました。」これは、少なくとも精神的に、あなたの答えがどのように形作られているかと整合しているようです。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.