@MichaelChernick がリンクされた質問への彼の回答に関するコメントに応じて言ったように:
信頼区間と仮説検定の間には、一般に1-1の対応があります。たとえば、モデルパラメーターの95%信頼区間は、そのパラメーターの値に関する対応する5%レベルの仮説検定の非棄却領域を表します。人口分布の形についての要件はありません。明らかにそれが一般に信頼区間に適用される場合、それはブートストラップ信頼区間に適用されます。
したがって、この回答は2つの関連する問題に対処します:(1)質問で提案されているように、ブートストラップの結果の表示がp値ではなく信頼区間(CI)を指定する頻度が高いように見える理由、および(2)両方のp値ブートストラップによって決定されたCIは信頼性が低いと疑われるため、代替アプローチが必要です。
最初の問題に関するこの質問の主張を具体的に裏付けるデータはわかりません。おそらく実際には、多くのブートストラップから導出された点推定は、テスト決定境界から離れている(または少なくともそうであるように思われる)ため、対応する帰無仮説のp値にはほとんど関心がなく、点推定自体およびその可能性のある変動の大きさのいくつかの合理的な尺度。
2番目の問題に関しては、多くの実用的なアプリケーションが「テスト統計の対称的な分布、重要なテスト統計、CLTの適用、迷惑パラメータがないか少ない」などを含み(上記の@XavierBourretSicotteによるコメントのように)、ほとんど困難はありません。次に問題となるのは、これらの条件からの潜在的な逸脱を検出する方法と、それらが発生したときにそれらに対処する方法です。
理想的な動作からのこれらの潜在的な逸脱は数十年前から高く評価されており、それらに対処するために初期にいくつかのブートストラップCIアプローチが開発されました。Studentizedブートストラップは重要な統計を提供するのに役立ち、BCaメソッドは、ブートストラップからより信頼性の高いCIを取得するという点でバイアスと歪度の両方を扱います。ブートストラップCIを決定する前にデータの分散安定化変換を行ってから、元のスケールに逆変換することも役立ちます。
公正なコインから20のトスから14のヘッドからサンプリングするこの質問の例は、BCaメソッドのCIを使用してうまく処理されます。R:
> dat14 <- c(rep(1,14),rep(0,6))
> datbf <- function(data,index){d <- data[index]; sum(d)}
> set.seed(1)
> dat14boot <- boot(dat14,datbf,R=999)
> boot.ci(dat14boot)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates
CALL :
boot.ci(boot.out = dat14boot)
Intervals :
Level Normal Basic
95% (9.82, 18.22 ) (10.00, 18.00 )
Level Percentile BCa
95% (10, 18 ) ( 8, 17 )
Calculations and Intervals on Original Scale
他のCIの推定値は、20回のトスあたり10頭という人口値の非常に近い、または端にあるという問題を提起しています。BCa CIは歪度(偶数オッズから離れた2項サンプリングによって導入されたもの)を考慮しているため、人口値10が適切に含まれています。
しかし、これらのソリューションを利用する前に、理想的な動作からのそのような逸脱を探す必要があります。多くの統計的実践と同様に、アルゴリズムにプラグインするだけでなく、実際にデータを確認することが重要になる場合があります。たとえば、バイアスブートストラップ結果のCIに関するこの質問は、上記のコードに示されている最初の3つのCIの結果を示していますが、BCa CIは除外されています。その質問で示された分析を再現してBCa CIを含めようとしたところ、結果が得られました。
> boot.ci(boot(xi,H.boot,R=1000))
Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o, :
estimated adjustment 'w' is infinite
ここで、「w」はバイアス補正に関与しています。調査中の統計には最大値が固定されており、ブートストラップされたプラグインの推定値も本質的に偏っていました。このような結果が得られた場合、ブートストラップされたCIの根底にある通常の仮定に違反していることを示しているはずです。
重要な量を分析することで、このような問題を回避できます。経験的分布は厳密に重要な有用な統計を持つことができないとしても、合理的にできるだけ近くなることが重要な目標です。この回答の最後の数段落は、ブートストラップを介して統計(データ変換後の可能性があります)がピボットに近いかどうかを推定するピボットプロットや、計算コストは高いが決定的なダブルブートストラップのような、さらなる支援へのリンクを提供します。