2つの分布のサンプルを考えて、中央値の差のテストを探しています(中央値が異なるという証拠のためにnullを拒否します)。両方の分布について何も仮定しません。この状況の標準テストはありますか?
ムードの中央値検定は知っていますが、分布がシフトしていることを前提としています。一部の。私はこれらの情報源でこの主張を支持します:
2つの分布のサンプルを考えて、中央値の差のテストを探しています(中央値が異なるという証拠のためにnullを拒否します)。両方の分布について何も仮定しません。この状況の標準テストはありますか?
ムードの中央値検定は知っていますが、分布がシフトしていることを前提としています。一部の。私はこれらの情報源でこの主張を支持します:
回答:
順列検定を検討できます。
median.test <- function(x,y, NREPS=1e4) {
z <- c(x,y)
i <- rep.int(0:1, c(length(x), length(y)))
v <- diff(tapply(z,i,median))
v.rep <- replicate(NREPS, {
diff(tapply(z,sample(i),median))
})
v.rep <- c(v, v.rep)
pmin(mean(v < v.rep), mean(v>v.rep))*2
}
set.seed(123)
n1 <- 100
n2 <- 200
## the two samples
x <- rnorm(n1, mean=1)
y <- rexp(n2, rate=1)
median.test(x,y)
両面p値0.1112を示します。これは、分布傾向にアピールしない場合の中央値テストの非効率性を証明するものです。
MLEを使用した場合は、正規分布の中央値が中央値であるため、正規分布の中央値の95%CIを平均から取得できます。つまり、1.00から1.18です。指数の中央値の95%CIはとしてフレーム化できます。これは、デルタ法では0.63〜0.80です。したがって、Wald検定は0.05レベルで統計的に有意ですが、中央値検定はそうではありません。
結果が序数または間隔値であると仮定すると、median
k = 2でノンパラメトリック検定を使用できます。以下は、スタタによる実装の説明です。
中央値検定では、2つ以上のサンプルが同じ中央値を持つ母集団からのものである可能性が高いかどうかを調べます。帰無仮説は、サンプルが同じ中央値を持つ母集団から抽出されたというものです。対立仮説は、少なくとも1つのサンプルが異なる中央値を持つ母集団から抽出されたというものです。このテストは、順序データまたは間隔データでのみ使用する必要があります。比較するk個の独立したサンプルのスコア値があると仮定します。中央値検定は、サンプルグループに関係なく、すべての観測値の組み合わせの中央値を最初に計算することによって実行されます。各スコアはこの計算された大中央値と比較され、大中央値より上、大中央値より下、または大中央値に等しいとして分類されます。総中央値に等しいスコアの観測は削除でき、「上記」グループに追加されます。「下」グループに追加するか、2つのグループ間で分割します。すべての観測値が分類されると、データは2xk分割表にキャストされ、ピアソンのカイ2乗検定またはフィッシャーの正確確率検定が実行されます。