質問はそれをすべて言います。KSを2以上の次元に一般化できないこと、および数値レシピのような有名な実装が単に間違っていることの両方を読みました。なぜそうなのか説明していただけますか?
質問はそれをすべて言います。KSを2以上の次元に一般化できないこと、および数値レシピのような有名な実装が単に間違っていることの両方を読みました。なぜそうなのか説明していただけますか?
回答:
問題の段落の関連部分を引用することは正当であると私は信じています。
3. KSテストは、2次元以上には適用できません。多くの場合、天文学者は、線に沿ってではなく、平面またはそれ以上の次元に分布する点を持つデータセットを持っています。天文学のいくつかの論文は、2次元のKSテストを提示することを目的としており、1つは有名なボリュームの数値レシピで再現されています。ただし、明確に定義されたEDF間の距離を計算できるようにポイントを順序付ける一意の方法がないため、EDFベースのテスト(KS、AD、および関連するテストを含む)を2次元以上に適用することはできません。いくつかの順序付け手順に基づいて統計を作成し、2つのデータセット(または1つのデータセットと曲線)間の最高距離を計算できます。ただし、結果として得られる統計の重要な値には分布がありません。
述べたように、これは強すぎるようです。
1)である二変量分布関数は、からへの写像です。つまり、関数は0と1の間の単変量の実数値を取ります。これらの値-確率-は確かに「順序付け」されています-そしてこれ(関数の値)はECDFベースのテストで比較する必要があるものです。同様に、ecdf、は、2変量のケースで完全に適切に定義されています。
テキストが示唆するように、必ずしもそれを一変量結合変数の関数に変換する必要があるとは思いません。あなたは、単に計算と、すべての必要な組み合わせで、その差を計算します。
2)しかし、それが配布不要であるかどうかの問題に関して、彼らはポイントを持っています:
a)明らかに、そのような検定統計量はマージンの変換の変更によって変更されません。つまり、2変量の独立したユニフォームの検定として構築された場合、で同等に機能します。また、独立のテスト、ここでです。その意味で、それは配布フリーです(「マージンフリー」と言うかもしれません)。
b)しかし、より一般的には、KS統計の単純なバージョン(先ほど説明したような)は、より一般的にはディストリビューションフリーではないという根本的なポイントがあります。任意に単純に変換することはできません。
私の答えの以前のバージョンでは、私は言った:
問題はありません、問題ありません
それは間違っている。今述べたように、2変量の独立したユニフォームからのマージンだけでなく、変更がある場合、確かに問題があります。ただし、これらの問題は、コルモゴロフ-スミルノフ統計の2変量/多変量バージョンを生成する多くの論文でいくつかの方法で検討されており、その問題に悩まされていません。
私は戻ってきて、時間が許せばすぐにそれらの参照のいくつかとそれらがどのように機能するかについてのいくつかの議論を追加するかもしれません。