初心者の質問:
2つの個別のデータセットが同じ分布に由来するかどうかをテストします。コルモゴロフ・スミルノフのテストが提案されました。
Conover(Practical Nonparametric Statistics、3d)は、コルモゴロフ-スミルノフ検定をこの目的に使用できると言っているようですが、その動作は離散分布で「保守的」であり、ここで何を意味するのかわかりません。
別の質問に対する DavidRのコメントは、「... KS統計に基づいてレベルα検定を作成することはできますが、シミュレーションなどによって重要な値を取得する他の方法を見つける必要があります。」
dgof Rパッケージ(article、cran)のks.test()のバージョンは、statsパッケージのks.test()のデフォルトバージョンにはない機能を追加します。とりわけ、dgof :: ks.testには次のパラメーターが含まれています。
simulate.p.value:離散適合度検定のみのために、モンテカルロシミュレーションによってp値を計算するかどうかを示す論理値。
Simulate.p.value = Tの目的は、DavidRが提案することを達成することですか?
たとえそうであっても、2サンプルテストにdgof :: ks.testを本当に使用できるかどうかはわかりません。連続分布に対して2サンプルのテストのみを提供しているように見えます。
yが数値の場合、xとyが同じ連続分布から引き出されたという帰無仮説の2標本検定が実行されます。
または、yは連続(累積)分布関数(またはそのような関数)を指定する文字列、または離散分布を与えるecdf関数(またはクラスstepfunのオブジェクト)にすることができます。これらの場合、1サンプルテストは、xを生成した分布関数が分布y ...であるというヌルから実行されます。
(背景の詳細:厳密に言えば、基礎となる分布は連続的ですが、データは少数のポイントに非常に近い傾向があります。各ポイントはシミュレーションの結果であり、-1から10までの実数の平均です。 1.シミュレーションの終わりまでに、これらの数値はほぼ常に.9または-.9に非常に近いため、平均値はいくつかの値に集中し、それらを離散として扱います。シミュレーションは複雑で、データが既知の分布に従うと考える理由。)
助言?