コルモゴロフ-スミルノフ2標本


9

コルモゴロフ–スミルノフの2標本検定を使用して分布を比較していて、 p-valueは、テスト統計として頻繁に報告されます。これはどのようにp-値が決定されましたか?少なくとも得られた結果と同じくらいの結果が得られる確率だと知っていますp値がノンパラメトリック検定であると判断された場合の値?つまり、分布のガウス変動を仮定して、p-値を使用して t-テスト。

ありがとう!


5
Kolmogorov-Smirnov統計(連続確率変数の分布のクラス全体)は、分布なしです。したがって、検定統計量の分布は(帰無仮説のもとで)データの根本的な分布に依存しません。
枢機卿

2
@Cardinalのポイントは、Wikipediaのエントリのコメントに記載されています。検定統計量の分布は漸近的であることに注意してください(つまり、小さいサンプルサイズ自体が大きい場合に有効です)。それはおそらくない小規模なサンプルのための共通基盤となる分布に依存します。
whuber

@whuber:私はあなたのコメントを完全に理解していないのではないかと心配しています。確かに、有限サンプルの分布は漸近分布と完全に同じになるわけではありませんが、固定サンプルサイズごとに統計が分布なしになることを妨げるものではありませんn (本当に (n1,n2)サイズが異なる場合があります)。[続き]
枢機卿

5
@whuber:...ましょう XiF そして YiG独立したiidシーケンスである。その後nF^n(x)=|{i:Xix}|=|{i:F(Xi)F(x)}| そして nG^n(x)=|{i:Yix}|=|{i:G(Yi)G(x)}|。したがって、前述の仮定では、F そして G 帰無仮説の下での連続分布 F=G、それがわかります sup|F^n(x)G^n(x)|分布は、同じサイズの2つの独立したサンプルから得られた同じ統計と同じです。U(0,1)
枢機卿、

1
@whuber:これらは2つの別個の、しかし微妙に異なる効果だと思います。ある意味では、我々は漸近のように正確にするので、彼らは(多くの場合)(CLTのおかげで)私たちに「限度で」配布フリーの統計を与えます。したがって、報告された値が分布の仮定に依存しないという事実は、それほど顕著ではありません。次に、特定のサンプルサイズの分布を(簡単に)計算できず、代わりに漸近近似に頼らなければならない場合に、分布のない統計のポイントは何でしょうか?得られると思われるのは、統一収束のバージョンです。p
枢機卿、

回答:


10

帰無仮説の下では、2サンプルのコルモゴロフ–スミルノフ統計量の漸近分布は、CDFを持つコルモゴロフ分布です。

Pr(Kx)=2πxi=1e(2i1)2π2/(8x2).

-値がこのCDFから計算することができる-を参照して第4節第2節コルモゴロフ-スミルノフ検定にWikipediaのページのを。p

あなたは、ノンパラメトリック検定統計量に分布があってはいけないと言っているようです-そうではありません-この検定をノンパラメトリックにするのは、検定統計量の分布が元のデータのどの連続確率分布に依存しないということですから来る。コメントの@cardinalで示されているように、KSテストは有限のサンプルでもこの​​プロパティを持っていることに注意してください。


3
(+1)最後の文を少し調整することをお勧めします。検定サンプルは、有限サンプルでも分布なしです(ただし、漸近分布とは異なります)。したがって、この分布のないプロパティは、検定統計量をノンパラメトリックにするものです。漸近分布が根底にある連続分布に依存しない多くの例があることに注意してください(CLTについて考えてみてください)。:)
2012

修正を加えましたが、考えれば考えるほど、統計が有限サンプルのデータの元の分布に本当に依存していないことがどうしてわかるのでしょうか。この@cardinalについてもう少し言えるでしょうか。
マクロ

承知しました。上記の質問の4番目のコメント(私の3番目のコメント)を参照してください。
枢機卿

そうですか!とてもクールでシンプル-枢機卿に感謝
マクロ

統計の順列分布を直接計算できる小さなサンプルの分布については誰も取り上げていません。ラベルとラベルが場合、それらの可能なすべての次数(すべて最小値から最大値に配置された値に対応)を書き留めることができ、そこから直接2標本KS統計を計算することが可能です。実際には、すべての可能性を書き出すだけではなく、p値を見つけるアルゴリズムをより洗練させることができます(計算量は急速に増加しますが、漸近分布はかなり速くなります)m Xn Y
Glen_b -Reinstate Monica

0

たとえば0.80のp値は、母集団からのサンプルのサイズnのサンプルの80%が、検定から得られたものよりも小さいD統計を持つことを意味します。これは、KSテストのD統計に基づいて計算されます。KS検定は、サンプルが評価される特定の分布に対して、理論的分布と経験的分布のCDF間の最大距離を測定します。

値D * SQRT(サンプルサイズ)のみがkolmogrov分布をもち、D自体をもたないことに注意してください。D値を指定してp値を手動で計算する場合は、インターネットで公開されているkolomogrov分布の公開テーブルを参照できます。これは、Rなどのパッケージで指定される値でもあります


これは明確に説明された答えではありません。
マイケルR.チェリック

上記のマクロが投稿した以前の回答の続きです。多くの人が信じていることとは異なり、Rパッケージで計算されたp値は完璧です。つまり、指定されたサイズの可能なすべてのサンプルを母集団から取得して理論上の分布と比較すると、各サンプルに対して計算された[最大距離D * SQRT(サンプルサイズ)]の値は、コロモグロフ分布になります。与えられたD統計に対して、Rパッケージは与えられた差のサンプルが理論上の母集団に属する確率の値を与えます
。0.8
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.