コルモゴロフ・スミルノフ検定の複数サンプル版または代替品はありますか？

12

1つのプロットが処理を受け、もう1つのプロットがコントロールを受けた6組のプロットで、木のサイズ分布を比較しています。プロットの各ペアでコルモゴロフ-スミルノフ検定を使用すると、範囲がからことがわかります。KSテストのマルチサンプル拡張など、すべてのレプリケートを一緒に処理するための適切な方法がありますか、または適切なフォローアップテストがありますか？または、「2組のプロットではサイズ分布が大幅に異なり）、1組のプロットではわずかに（）」などのように結論付ける必要があります。 $p$ $0.0003707$ $0.75$ $(p < 0.05$ $p = 0.59$

nonparametric kolmogorov-smirnov

— Nブラウワー
ソース

2

これらの分布について比較したいのは、中心傾向が異なること、または形状が異なることです。私はKSを分布の形状/性質に関するものと考える傾向がありますが、フリードマン検定のようなものは、サンプルの中心傾向が異なることを判断できます。

— GUNG -復活モニカ

13

$r\geq 2$

— もも
ソース

5

さて、ベームとホーニクの「美しい」論文の欠点は、私が知る限り、公開されている利用可能な実装がないことです。数学は非常に複雑なので、自分で実装するのは好ましくありません。著者にメールを送って尋ねたが、返事はなかった。HornikはR Core Developersグループのメンバーであることに注意してください...誰かが実装について知っているなら、ここにリンクを投稿してください！

— ラリックスデシドゥア

8

RパッケージkSamplesがあります。これは、とりわけ、ノンパラメトリックkサンプルAnderson-Darlingテストを提供します。帰無仮説は、すべてのk個のサンプルが、指定する必要のない同じ分布に由来するというものです。たぶん、あなたはこれを使うことができます。

同じ平均と分散になるようにスケーリングされた標準サンプルとガンマ分布サンプルの比較に関する小さな例：

library("kSamples")
set.seed(142)
samp.num <- 100
alpha <- 2.0; theta <- 3.0  # Gamma parameters shape and scale, using Wikipedia notation
gam.mean <- alpha * theta # mean of the Gamma
gam.sd <- sqrt(alpha) * theta # S.D. of the Gamma
norm.data <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)  # Normal with the same mean and SD as the Gamma
gamma.data <- rgamma(samp.num, shape=alpha, scale=theta)
norm.data2 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
norm.data3 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
ad.same <- ad.test(norm.data,norm.data2,norm.data3) # "not significant, p ~ 0.459"
ad.diff <- ad.test(gamma.data,norm.data2,norm.data3) # "significant, p ~ 0.00066"

— Laryx Decidua
ソース

4

いくつかのアプローチ：

ペアワイズp値を使用しますが、Bon FeroniまたはFalse Discovery Rateの調整方法などを使用して、複数の比較のために調整します（最初の値はおそらく控えめになります）。そうすれば、まだ大きく異なるものは、おそらく複数のテストによるものではないと確信できます。

分布の最大距離を見つけることによって、KSのフレーバーで全体的なテストを作成できます。つまり、すべての経験的累積分布関数をプロットし、最下部の線から最上部の線までの最大距離、またはおそらく平均距離またはその他の意味のあるものを見つけることができます測定します。次に、置換テストを実行することでそれが重要かどうかを確認できます：すべてのデータを1つの大きなビンにグループ化し、元のグループと同じサンプルサイズのグループにランダムに分割し、置換されたデータの統計を再計算してプロセスを繰り返します何回も（999程度）。次に、元のデータと置換されたデータセットとの比較を確認します。元のデータ統計が並べ替えられたデータの中間にある場合、大きな違いは見つかりませんが、エッジにある場合、または置換されたもののいずれかを超えて、何か重要なことが起こっています（しかし、これは異なるものを教えてくれません）。おそらく、このテストの力をチェックして興味深い違いを見つけるだけで十分な違いがあることがわかっているシミュレーションデータでこれを試してみてください。

— グレッグ・スノー
ソース