コルモゴロフ–スミルノフ検定:サンプルサイズが大きくなると、p値とks検定の統計量は減少します


11

サンプルサイズの増加に伴い、p値とks検定の統計が減少するのはなぜですか?例としてこのPythonコードを見てみましょう:

import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
  x = norm(0, 4).rvs(n)
  y = norm(0, 4.1).rvs(n)
  print ks_2samp(x, y)

結果は次のとおりです。

Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)

直観的に私は、nが大きくなるにつれて、2つの分布が異なることを「より確実」にテストすることを理解しています。しかし、サンプルサイズが非常に大きい場合、これなどの類似性テストのポイントは何であり、アンダーソンダーリングテストまたはt検定と言えます。このような場合、nが非常に大きい場合、分布は常に「大幅に」違う!?現在、p値のポイントは一体何なのかと思っています。これはサンプルサイズに大きく依存します... p> 0.05でそれを小さくしたい場合は、より多くのデータを取得します。そして、p <0.05でより高くしたい場合は、一部のデータを削除します。

また、2つの分布が同一である場合、ks-test統計は0で、p値は1になります。ただし、私の例では、nが増加するにつれて、ks-test統計は、分布が時間とともにますます類似する(減少する)ことを示唆しています。 、しかしp値に従って、それらは時間とともにより大きくなり、(また減少し)ます。


参照は、「基本的に役に立たない」正規のテストですか?。あなたが言うことが真実ではないことに注意してください:分布が実際に同一である場合、サンプルサイズを増やしても、p値の分布は均一のままです。
Scortchi-モニカの回復

2
これに関連する可能性のある問題がありました:stats.stackexchange.com/questions/301628/…これにより、このテストについて本当に懐疑的になりました。
Aleksandar Jovanovic 2017

確かに、十分なデータがあれば、任意の小さいがゼロではない効果サイズが統計的に有意であることを示すことができます。ここで重要なのは、統計的有意性と実際的な有意性の違いを認識することです。ホーマーシンプソンの引用を誤解するために、「p値を使用して、ほんの少しでも真実であることを証明することができます」。
Nuclear Wang

回答:


4

分布が非常に似ていて、サンプルが大きいほどノイズが少ないため、検定統計量は減少します。使用した2つの理論的分布を比較すると、「真の」KS統計が得られます。さらにデータを追加すると、推定KS統計はこの真の値に近づくはずです。ただし、KS統計が減少しても、個々の分布の推定値の信頼性が高いため、実際には2つの異なる分布(つまり、p値の減少)であるという確信が高まります。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.