1つのプロットが処理を受け、もう1つのプロットがコントロールを受けた6組のプロットで、木のサイズ分布を比較しています。プロットの各ペアでコルモゴロフ-スミルノフ検定を使用すると、範囲がからことがわかります。KSテストのマルチサンプル拡張など、すべてのレプリケートを一緒に処理するための適切な方法がありますか、または適切なフォローアップテストがありますか?または、「2組のプロットではサイズ分布が大幅に異なり)、1組のプロットではわずかに()」などのように結論付ける必要があります。
1つのプロットが処理を受け、もう1つのプロットがコントロールを受けた6組のプロットで、木のサイズ分布を比較しています。プロットの各ペアでコルモゴロフ-スミルノフ検定を使用すると、範囲がからことがわかります。KSテストのマルチサンプル拡張など、すべてのレプリケートを一緒に処理するための適切な方法がありますか、または適切なフォローアップテストがありますか?または、「2組のプロットではサイズ分布が大幅に異なり)、1組のプロットではわずかに()」などのように結論付ける必要があります。
回答:
RパッケージkSamplesがあります。これは、とりわけ、ノンパラメトリックkサンプルAnderson-Darlingテストを提供します。帰無仮説は、すべてのk個のサンプルが、指定する必要のない同じ分布に由来するというものです。たぶん、あなたはこれを使うことができます。
同じ平均と分散になるようにスケーリングされた標準サンプルとガンマ分布サンプルの比較に関する小さな例:
library("kSamples")
set.seed(142)
samp.num <- 100
alpha <- 2.0; theta <- 3.0 # Gamma parameters shape and scale, using Wikipedia notation
gam.mean <- alpha * theta # mean of the Gamma
gam.sd <- sqrt(alpha) * theta # S.D. of the Gamma
norm.data <- rnorm(samp.num, mean=gam.mean, sd=gam.sd) # Normal with the same mean and SD as the Gamma
gamma.data <- rgamma(samp.num, shape=alpha, scale=theta)
norm.data2 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
norm.data3 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
ad.same <- ad.test(norm.data,norm.data2,norm.data3) # "not significant, p ~ 0.459"
ad.diff <- ad.test(gamma.data,norm.data2,norm.data3) # "significant, p ~ 0.00066"
いくつかのアプローチ:
ペアワイズp値を使用しますが、Bon FeroniまたはFalse Discovery Rateの調整方法などを使用して、複数の比較のために調整します(最初の値はおそらく控えめになります)。そうすれば、まだ大きく異なるものは、おそらく複数のテストによるものではないと確信できます。
分布の最大距離を見つけることによって、KSのフレーバーで全体的なテストを作成できます。つまり、すべての経験的累積分布関数をプロットし、最下部の線から最上部の線までの最大距離、またはおそらく平均距離またはその他の意味のあるものを見つけることができます測定します。次に、置換テストを実行することでそれが重要かどうかを確認できます:すべてのデータを1つの大きなビンにグループ化し、元のグループと同じサンプルサイズのグループにランダムに分割し、置換されたデータの統計を再計算してプロセスを繰り返します何回も(999程度)。次に、元のデータと置換されたデータセットとの比較を確認します。元のデータ統計が並べ替えられたデータの中間にある場合、大きな違いは見つかりませんが、エッジにある場合、または置換されたもののいずれかを超えて、何か重要なことが起こっています(しかし、これは異なるものを教えてくれません)。おそらく、このテストの力をチェックして興味深い違いを見つけるだけで十分な違いがあることがわかっているシミュレーションデータでこれを試してみてください。