2サンプル順列検定でテールを2倍にする


10

2つのサンプルがあり、それらが同じ分布から抽出されたかどうかを判断したいとします。サンプルA、Bはいくつかの整数で構成されています。

これを、2サンプル順列テストを使用してテストする場合、具体的には、サンプルの平均の差が観察された差と同じくらい極端である順列を調べることにより、両側p-を計算できると考える理由はありますか?片方の尾を見て確率を2倍にすることで価値は?

これは私の講義ノートで言われているように見えますが、尾が対称的であると仮定できる理由(またはそれがなぜその仮定を伴わないのか)がわかりません。説明は迫っていませんでした。

回答:


9

テスト統計の順列分布は対称的であることが保証されていないため、そのようにすることはできません。代わりに、両方の尾を追加します。2つの独立したサンプルの場合、帰無仮説は2つの位置パラメーターが等しいということです。両方のグループで連続分布と等分散を仮定すると、帰無仮説の下で交換可能性があります。検定統計量は平均の差であり、NULLの下ではです。TE(T)=0

元のサンプルのの値はであり、順列値です。は何かの「数」の短縮形です。たとえば、は順列検定統計の数です。次に、両側仮説の値は。ここで、TTempT()(T)ppts=pleft+pright

pleft=(T<=min(Temp,Temp))(T)

pright=(T>=max(Temp,Temp))(T)

(完全な順列分布があると仮定します)。正確な(完全な)置換分布を計算できる場合、2つの独立したサンプルの場合の両方のアプローチを比較してみましょう。

set.seed(1234)
Nj   <- c(9, 8)                      # group sizes
DVa  <- rnorm(Nj[1], 5, 20)^2        # data group 1
DVb  <- rnorm(Nj[2], 10, 20)^2       # data group 2
DVab <- c(DVa, DVb)                  # data from both groups
IV   <- factor(rep(c("A", "B"), Nj)) # grouping factor
idx  <- seq(along=DVab)              # all indices
idxA <- combn(idx, Nj[1])            # all possible first groups

# function to calculate test statistic for a given permutation x
getDM <- function(x) { mean(DVab[x]) - mean(DVab[!(idx %in% x)]) }
resDM <- apply(idxA, 2, getDM)       # test statistic for all permutations
diffM <- mean(DVa) - mean(DVb)       # empirical stest statistic

次に、値を計算し、提案されたソリューションをRのパッケージの実装で検証します。そのお守り、あなたが計算した方法重要ので、。pcoinpleftprightpts

> (pL <- sum(resDM <= min(diffM, -diffM)) / length(resDM))  # left p-value
[1] 0.1755245

> (pR <- sum(resDM >= max(diffM, -diffM)) / length(resDM))  # right p-value
[1] 0.1585356

> 2*pL        # doubling left p-value
[1] 0.351049

> 2*pR        # doubling right p-value
[1] 0.3170712

> pL+pR       # two-sided p-value
[1] 0.3340601

> sum(abs(resDM) >= abs(diffM)) / length(resDM)  # two-sided p-value (more concise)
[1] 0.3340601

# validate with coin implementation
> library(coin)              # for oneway_test()    
> oneway_test(DVab ~ IV, alternative="two.sided", distribution="exact")
Exact 2-Sample Permutation Test
data:  DVab by IV (A, B) 
Z = 1.0551, p-value = 0.3341
alternative hypothesis: true mu is not equal to 0 

PS順列分布からのみサンプリングするモンテカルロの場合、値は次のように定義されます。p

pleft=(T<=min(Temp,Temp))+1(T)+1

pright=(T>=max(Temp,Temp))+1(T)+1

pts=(abs(T)>=abs(Temp))+1(T)+1

直感的にもう1つの極端な置換ケースを追加する理由は、経験的サンプルもカウントする必要があるためです。それ以外の場合、置換値は0になる可能性があり、連続的な場合には発生しません(ここを参照しください。一部のテキストではこの修正が推奨されており、そうでないものもあります)。p


これは、の期待値がゼロであることを想定していませんか?T
whuber

@whuber両方のグループで位置パラメータが等しいという帰無仮説を使用すると、ヌルの下では交換可能であり、ヌルの下ではである(連続性と等しい拡散を想定)。E(T)=0
カラカル

ありがとう、それは改善です。次に、この仮定のもとで統計が対称分布にならなくなる方法を説明できますか?
whuber

2
@whuber 置換分布はサンプル値に依存するため、非対称になる可能性があります。値グループA:1、値グループB:2、2。3つの関連する順列が可能で、ます。T=1,.5,.5
カラカル

説明をありがとう:私は今論理に従います。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.