どのブートストラップ法が最も好ましいですか?


7

多分この質問は与えられたデータに依存しますが、他のものより「より良い」ブートストラップ方法はありますか?私は単に1つの変数のデータセットを使用しています(これは、過去15週間のフットボールのスコア(2チーム)の違いで構成されています)。

最初にこのデータの正しいスキューに注意してください。これは、データの表現に「より良い」または最も正確であると私が推奨するブートストラップを考慮に入れるように感じます。

ここに画像の説明を入力してください

まず、標準のブートストラップ間隔です

N <- 10^4
n <- length(Differences)
Differences.mean <- numeric(N)
for(i in 1:N)
{
x <- sample(Differences, n, replace = TRUE)
Differences.mean[i]<- mean(x)
}

lower = mean(Differences.mean)-1.96*sd(Differences.mean) #Lower CI
upper = mean(Differences.mean)+1.96*sd(Differences.mean) #Upper CI
= (8.875, 10.916)

 mean(Differences.mean)-m  #The bias is fairly small also
= -.0019

これがブートストラップ百分位間隔です

 quantile(Differences.mean,c(.025,.975)
 = (8.893, 10.938) 

最後に、ここにブートストラップT間隔があります

Tstar = numeric(N)
for(i in 1:N)
{
y =sample(Differences, size = n, replace = TRUE)
Tstar[i] = (mean(y)-m) / (sd(y)/sqrt(n))
}
q1 = quantile(Tstar,.025) #empirical quantiles for bootstrap t (lower)
q2 = quantile(Tstar,.975) #empirical quantiles for bootstrap t (upper)

mean(Differences)-(q2*sd(Differences/sqrt(n)))
mean(Differences)-(q1*sd(Differences/sqrt(n)))
= (8.925, 10.997)

さらに、t信頼区間もかなり正確に見えます

 t.test(Differences, conf.level = .95, alternative = "two.sided")
 = (8.867, 10.928)

私の結論は、ブートストラップt間隔を選択することです。これは、データの正しいスキューを反映し、他のどの間隔よりもさらに右に引き伸ばされているためです。私のサンプルサイズは224です。サンプルサイズは私の結論に大きな役割を果たしていると思いますが、最初の質問は「他より優れたブートストラップ方法はありますか?」でした。多分それは本当にデータとサンプルサイズに依存します。うまくいけば、これは広すぎません。


これは宿題の問題ですか?
Jon

1
「ブートストラップ信頼区間の理論的比較」を読むのに適した紙を以下に示します。projecteuclid.org/ download / pdf_1 / euclid.aos / 1176350933
Jon

2
良いアイデアがあるようです。Tim Hesterbergのブートストラップtに関する研究を見てください。グラフのマイナス側の距離が示されていないため、グラフがよくわかりません。すべてのメソッドの間隔がどれほど近いかに少し驚いています。私は標準のブートストラップがもっと悪いことをすると思っていただろう。
Michael R. Chernick

1
BCとBCaを検討しましたか?
マイケルR.チェニック2016

1
著者のエフロンとティブシラニ1993年のこれらの本を見ることができます。デイヴィソンとヒンクリー1997年とチェリック2007年。私の本はワイリーによって出版されました。エフロンチャップマンとホール、デイヴィソンとヒンクリーケンブリッジ大学出版局私は思う。
Michael R. Chernick

回答:


1

マイケルChernickノート、また、バイアス修正(BC)と見て有用であろうバイアス補正後の加速(BCA)ブートストラップ。

特にBCaバリアントは、明らかにそうであるように、データの歪度を処理しようとします。DiCiccio&Efron(1996、Statistical Scienceは、Davison&Hinkley、Bootstrap Methods and their Applications(1997)同様に、優れたパフォーマンスを発揮することを発見しました。

ブートストラップ間隔がひどいカバレッジになるのはなぜですか?は関連しており、Cantoらの記事を特にお勧めします。(2006)私はそこで引用しています。そして最後に、答えはおそらくサンプルサイズ、基礎となる分布、およびブートストラップする統計の重要性または非関連性に関連していることに同意します。


信頼区間の両側で非カバレッジ確率をシミュレートすることは非常に重要です。対数正規分布でそれを行ったとき、私が試していないブートストラップtを除いて、すべてのブートストラップ間隔はひどいカバレッジを持っています。また、標準のブートストラップパッケージを使用して、ブートストラップの結果を確認することもできます。
フランクハレル2017年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.