Kolmogorov-Smirnov検定のp値を解釈する方法(python)?


30

同じディストリビューションから取得された場合、テストする2つのサンプル(Pythonを使用)があります。そのためには、scipy.statsの統計関数ks_2sampを使用します。2つの値が返され、それらを解釈する方法に問題があります。助けてください!

回答:


23

Stijnが指摘したように、ks検定はD統計とD統計に対応するp値を返します。D統計は、2つのサンプルのCDF間の絶対最大距離(上限)です。この数値が0に近いほど、2つのサンプルが同じ分布から抽出された可能性が高くなります。ksテストについては、Wikipediaページをご覧ください。それは良い説明を提供します:https : //en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

ksテストによって返されるp値は、他のp値と同じ解釈になります。p値が有意水準より小さい場合、2つのサンプルが同じ分布から引き出されたという帰無仮説を棄却します。手順に興味がある場合は、D統計をp値に変換するためのテーブルをオンラインで見つけることができます。


ご回答ありがとうございます。実際、2つの値DとP値の意味は知っていますが、それらの間の関係はわかりません。有意水準を定義するにはどうすればよいですか?D統計をp値に変換するためのリンクを教えてください。
メリ

確かに、D統計をp値に変換するためのテーブル:soest.hawaii.edu/wessel/courses/gg313/Critical_KS.pdf
CrossValidatedTrading

@CrossValidatedTrading:D-stat-to-p-valueテーブルへのリンクは現在404です。
james.garriss15年

@CrossValidatedTrading両面KSテストのp値とD値の間に関係があるべきですか?場合によっては、D統計量がp値とともに増加する比例関係が見られます。より大きな差を有する2つの曲線(より大きなD-統計値)すなわち、(低いp値)より有意に異なるであろう...:それは反対であろうように、それは思わ
トーマスマシュー

p値が> 0.05の場合、2つのサンプルは同一でバランスが取れている必要があります。
user798719 16

5

ks_2sampのGoogle検索を行う場合、最初のヒットはこの Webサイトです。その上で、関数の仕様を確認できます。

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value

aおよびbパラメーターはデータのシーケンスです。または、ks_2sampを使用するためにCDFを計算する必要がありますか?
メリー

@meri:リンク先のページに例があります。
スティン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.