コルモゴロフ-スミルノフのテスト関数の出力を理解しようとしています(2つのサンプル、両面)。これは簡単なテストです。
x <- c(1,2,2,3,3,3,3,4,5,6)
y <- c(2,3,4,5,5,6,6,6,6,7)
z <- c(12,13,14,15,15,16,16,16,16,17)
ks.test(x,y)
# Two-sample Kolmogorov-Smirnov test
#
#data: x and y
#D = 0.5, p-value = 0.1641
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, y) : cannot compute exact p-value with ties
ks.test(x,z)
#Two-sample Kolmogorov-Smirnov test
#data: x and z
#D = 1, p-value = 9.08e-05
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, z) : cannot compute exact p-value with ties
ks.test(x,x)
#Two-sample Kolmogorov-Smirnov test
#data: x and x
#D = 0, p-value = 1
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, x) : cannot compute exact p-value with ties
ここで理解できないことがいくつかあります。
ヘルプから、p値は仮説を指しているよう
var1=var2
です。ただし、ここでは、テストで(p<0.05
)と表示されます:a。それは言えません
X = Y
。b。それを言うことができます
X = Z
。c。言えない
X = X
(!)
xがそれ自体とは異なる(!)ように見えることに加えx=z
て、2つの分布のサポートが重複していないため、私にとっても非常に奇妙です。そんなことがあるものか?
テストの定義によれば、
D
2つの確率分布間の最大差であるべきであるが、場合に、例えば、(x,y)
それがなければならないD = Max|P(x)-P(y)| = 4
(場合P(x)
、P(y)
または正規化されていない)D=0.3
(これらは正規化されている場合)。なぜDはそれと違うのですか?私が使用しているデータには多くの同一の値があるため、意図的に多くの関係を持つ例を作成しました。なぜこれがテストを混乱させるのですか?繰り返し値の影響を受けない確率分布を計算すると思った。何か案が?