ブートストラップを使用して回帰の係数の信頼区間を推定する2つの方法

私は自分のデータに線形モデルを適用しています：

y_{i} = β_{0} + β_{1} x_{i} + ϵ_{i}, ϵ_{i} \sim N (0, σ^{2}) .

$y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}).$

Iは、係数の信頼区間（CI）（推定したい $\beta_{0}$ 、 $\beta_{1}$ 、ブートストラップ法を使用します）。ブートストラップ方式を適用できる方法は2つあります。

ペアの応答予測子のサンプル：ペアをランダムにリサンプリングし、各実行に線形回帰を適用します。後は実行、我々は、推定された係数の集合得る。最後に、の分位数を計算。 $y_{i}-x_{i}$ $m$ ${\hat{\beta_{j}}}, j=1,...m$ ${\hat{\beta_{j}}}$
サンプルエラー：まず、我々は入手このモデルから、元の観測データに線形回帰を適用とエラー。その後、ランダムエラーリサンプリングとを使用して新しいデータを計算及び。もう一度線形回帰を適用します。後は実行、我々は推定coefficeintsのコレクションを取得 $\hat{\beta_{o}}$ $\epsilon_{i}$ $\epsilon^{*}_{i}$ $\hat{\beta_{o}}$ $y^{*}_{i}=\hat{\beta_{o}}x_{i}+\epsilon^{*}_{i}$ $m$ 。最後に、の分位数を計算。 ${\hat{\beta_{j}}}, j=1,...,m$ ${\hat{\beta_{j}}}$

私の質問は：

これら2つの方法はどのように違いますか？
これらの2つの方法は、どの仮定の下で同じ結果をもたらしますか？

regression bootstrap

— 天天城
ソース

私は個人的にどちらもデフォルトのアプローチとして使用しませんが、代わりに基本的なブートストラップ信頼区間を推奨します。Pを参照してください。www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdfの8 バイナリロジスティックモデルに対して多くのシミュレーションを行ってきましたが、パーセンタイルまたはBCaブートストラップを使用するよりも、基本的なブートストラップを使用した方が信頼区間のカバレッジが改善されています。

— フランクハレル

@FrankHarrellを明確にするために、「基本」とは、ノンパラメトリックブートストラップを指しますか？

— ndoogan

（1）は、ブートストラップパーセンタイルのノンパラメトリック信頼区間であり、基本的なブートストラップではありません。

からのサンプリングは無条件のブートストラップであり、残差をリサンプリングする条件付きブートストラップよりも仮定が不要であることに注意してください。

(x, y)

$(x,y)$

— フランクハレル

私は本当に専門家ではありませんが、私が理解する限り、1）はしばしば「ケースリサンプリング」と呼ばれ、2）は「残差リサンプリング」または「固定

」リサンプリングと呼ばれます。方法の基本的な選択は、手順後に信頼区間を計算する方法を意味するものではありません。私は主にジョン・フォックスのチュートリアルからこの情報を得ました。私の知る限り、いずれかのブートストラップの後、基本的なブートストラップCIを計算できます（たとえば、で）。または、私はここで何かを見逃しますか？

x

$x$ boot.ci(my.boot, type="basic")R

— COOLSerdash

はい、クラスターブートストラップを実行できます。これは、R rms validateおよびcalibrate関数に実装されています。

— フランクハレル

応答予測子のペアがランダムサンプルによって母集団から取得されている場合は、case / random-x / your-firstリサンプリングスキームを使用しても安全です。予測変数が制御されている場合、または予測変数の値が実験者によって設定されている場合、残差/モデルベース/固定x /秒リサンプリングスキームの使用を検討できます。

2つの違いは何ですか？ DavisonとKounenによる Rのアプリケーションを使用したブートストラップの紹介には、この質問に関する議論があります（p.9を参照）。John Foxによるこの付録の Rコードも参照してください。特に、random-xスキームについてはp.5のboot.huberを、fixed-xスキームについてはp.10のboot.huber.fixedを機能させます。Shaliziの講義ノートでは、2つのスキームが異なるデータセット/問題に適用されていますが、Foxの付録では、2つのスキームが頻繁に生じる違いを示しています。

2つがほぼ同一の結果をもたらすと期待できるのはいつですか？1つの状況は、回帰モデルが正しく指定されている場合です。たとえば、モデル化されていない非線形性がなく、通常の回帰仮定（たとえば、idエラー、外れ値なし）が満たされている場合です。参照してくださいフォックスの本の第21章（Rコードと前述の付録では、間接的に属する）、ページ598で特に議論をし、21.3を行使する。「回帰におけるランダム対固定リサンプリング」というタイトル。本から引用する

By randomly reattaching resampled residuals to ﬁtted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be  
reﬂected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.

また、その説明から、fixed-xブートストラップがモデルの関数形式が正しいと暗黙的に仮定する理由を学習します（エラー分布の形状について仮定がなされていない場合でも）。

デレクベインによるアイルランドのアクチュアリー協会のこの講演のスライド12も参照してください。また、「同じ結果」と見なされるものの説明もあります。

The approach of re-sampling cases to generate pseudo data is the more usual form of   
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.

The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are  
equivalent.

— 冬眠
ソース