サンプルのブートストラップ時にセンタリングが必要ですか?


13

サンプル平均の分布を近似する方法について読んでいると、ノンパラメトリックブートストラップ法に出くわしました。明らかに一つの分布近似することができるの分布によってˉ X * N - ˉ X Nˉ X * nは、ブートストラップサンプルのサンプルの平均を意味します。X¯nμX¯nX¯nX¯n

私の質問は、「センタリングが必要ですか?」です。何のために?

私だけでおおよそのことができませんでしたによるP ˉ X * NX P(X¯nx)P(X¯nx


私たちが何を中心に置く必要があるのか​​わかりません。ここで説明するサンプルはすべて同じサイズですよね?
ビット単位

同じサイズ、はい。センタリングの理由もわかりません。なぜそうする必要があるのか​​、なぜそうしなければならないのか、誰かが数学的な説明を思い付くことができるでしょうか?つまり、中央に配置しないと、ブートストラップが機能する、または機能しないことを証明できますか?
クリスティン

3
(ところで、ブートストラップが中心にある場合に動作することの証明は、Bickel、PJ and DA Freedman(1981)、ブートストラップの漸近理論にあります。)
Christin

私は好奇心が強い:なぜこの質問は落とされるのですか
枢機

たぶん、私たちはn 1を与える中心極限定理を使用できるようにするために、入力を行います。と同じ分布に収束nは1n12(X¯nμ)、すなわちに、N0σ2。たぶん、それが機能するかどうかを私たちに伝えるセンタリングなしで、ケースに利用できる漸近がありません。n12(X¯nX¯n)N(0,σ2)
ケルー

回答:


4

はい、あなたができる近似によるP ˉ X * NX が、それは最適ではありません。これは、パーセンタイルブートストラップの形式です。ただし、サンプルサイズが大きい場合を除き、母集団の平均値を推測しようとすると、パーセンタイルブートストラップはうまく機能しません。(サンプルサイズが小さい場合を含む、他の多くの推論問題でうまく機能します。)この結論は、ウィルコックスの社会および行動科学現代統計、CRC Press、2012年から得ています。 。P(X¯nx)P(X¯nx)

センタリングアプローチのバリエーションは次のステップに進み、再サンプリングの標準偏差とサンプルサイズでセンタリングされたブートストラップ統計をスケーリングし、統計と同じ方法で計算します。これらのt統計の分布からの分位数は、信頼区間の構築または仮説検定の実行に使用できます。これはbootstrap-t方式であり、平均について推論するときに優れた結果が得られます。

LET 分母としてのn-1を使用して、ブートストラップ再標本に基づいて、再サンプル標準偏差であるが、sは元のサンプルの標準偏差です。させるs

T=X¯nX¯s/n

シミュレートされた分布の97.5パーセンタイルと2.5パーセンタイルは、次の方法でμの信頼区間を作成できます。Tμ

X¯T0.975sn,X¯T0.025sn

以下のシミュレーション結果を検討してください。歪んだ混合分布では、この方法の信頼区間には、パーセンタイルブートストラップ法またはブートストラップなしのat統計の従来の反転よりも頻繁に真の値が含まれます。

compare.boots <- function(samp, reps = 599){
    # "samp" is the actual original observed sample
    # "s" is a re-sample for bootstrap purposes

    n <- length(samp)

    boot.t <- numeric(reps)
    boot.p <- numeric(reps)

    for(i in 1:reps){
        s <- sample(samp, replace=TRUE)
        boot.t[i] <- (mean(s)-mean(samp)) / (sd(s)/sqrt(n))
        boot.p[i] <- mean(s)
    }

    conf.t <- mean(samp)-quantile(boot.t, probs=c(0.975,0.025))*sd(samp)/sqrt(n)
    conf.p <- quantile(boot.p, probs=c(0.025, 0.975))

    return(rbind(conf.t, conf.p, "Trad T test"=t.test(samp)$conf.int))
}

# Tests below will be for case where sample size is 15
n <- 15

# Create a population that is normally distributed
set.seed(123)
pop <- rnorm(1000,10,1)
my.sample <- sample(pop,n)
# All three methods have similar results when normally distributed
compare.boots(my.sample)

これにより、以下が得られます(conf.tはブートストラップtメソッドです; conf.pはパーセンタイルブートストラップメソッドです)。

          97.5%     2.5%
conf.t      9.648824 10.98006
conf.p      9.808311 10.95964
Trad T test 9.681865 11.01644

歪んだ分布からの1つの例:

# create a population that is a mixture of two normal and one gamma distribution
set.seed(123)
pop <- c(rnorm(1000,10,2),rgamma(3000,3,1)*4, rnorm(200,45,7))
my.sample <- sample(pop,n)
mean(pop)
compare.boots(my.sample)

これにより、以下が得られます。「conf.t」-ブートストラップtバージョン-は、他の2つよりも信頼区間が広いことに注意してください。基本的に、人口の異常な分布への対応が優れています。

> mean(pop)
[1] 13.02341
> compare.boots(my.sample)
                97.5%     2.5%
conf.t      10.432285 29.54331
conf.p       9.813542 19.67761
Trad T test  8.312949 20.24093

最後に、どのバージョンが最も頻繁に正しい信頼区間を提供するかを確認するための1000のシミュレーションがあります。

# simulation study
set.seed(123)
sims <- 1000
results <- matrix(FALSE, sims,3)
colnames(results) <- c("Bootstrap T", "Bootstrap percentile", "Trad T test")

for(i in 1:sims){
    pop <- c(rnorm(1000,10,2),rgamma(3000,3,1)*4, rnorm(200,45,7))
    my.sample <- sample(pop,n)
    mu <- mean(pop)
    x <- compare.boots(my.sample)
    for(j in 1:3){
        results[i,j] <- x[j,1] < mu & x[j,2] > mu
    }
}

apply(results,2,sum)

これにより、以下の結果が得られます-数値は、信頼区間にシミュレートされた母集団の真の値が含まれる1,000回のうちの時間です。すべてのバージョンの真の成功率は95%よりもかなり低いことに注意してください。

     Bootstrap T Bootstrap percentile          Trad T test 
             901                  854                  890 

ありがとう、それは非常に有益だった。この.pdf(レッスンから)はあなたの結論への警告を説明します:psychology.mcmaster.ca/bennett/boot09/percentileT.pdfこれはBennetが言っていることの要約です:多くのデータセットは> = 0(すなわちデータカウントできます)。この場合、CIに負の値を含めることはできません。bootstrap-tメソッドを使用すると、これが発生する可能性があり、信頼区間を信じがたいものにします。データが> = 0であるという要件は、正規分布の仮定に違反しています。パーセンタイルブートストラップCIを構築する場合、これは問題ではありません
ハンネスツィーグラー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.