回答:
ブートストラップは、大規模なサンプル理論で想定されているものよりもサンプリング分布の堅牢な画像を取得するために行われます。ブートストラップするとき、取る「ブートサンプル」の数に事実上制限はありません。実際、より多くのブートサンプルを取得すればするほど、サンプリング分布に対するより良い近似が得られます。使用するのが一般的であるという数について何も魔法があるが、bootsamplesを。さらに、ブートサンプルでテストを実行しません。サンプリング分布の推定値があります。直接使用してください。アルゴリズムは次のとおりです。
統計的検定としてのこのアルゴリズムのロジックは、基本的に古典的な検定(t検定など)と似ていますが、データまたは結果のサンプリング分布に特定の分布があるとは想定していません。(たとえば、正規性を仮定していません。)あなたがしている主な仮定は、あなたのデータがあなたがサンプリングした/一般化したい母集団の代表であるということです。つまり、サンプル分布は母集団分布に似ています。データが関心のある母集団に関連していない場合、運が悪かったことに注意してください。
一部の人々は、正規性を引き受けたくない場合、例えば回帰モデルを使用して勾配を決定することを心配しています。しかし、この懸念は間違っています。ガウス-マルコフの定理は、推定値が不偏(つまり、真の値を中心とする)であるため、問題ないことを示しています。正規性の欠如は、真のサンプリング分布が理論的に仮定された分布と異なる可能性があることを意味しているため、p値は無効です。ブートストラップ手順は、この問題に対処する方法を提供します。
ブートストラップに関する他の2つの問題:古典的な仮定が満たされている場合、ブートストラップはパラメトリックテストよりも効率が低い(パワーが小さい)。第二に、ブートストラップは、分布の中心付近を探索しているときに最適に機能します。平均と中央値は良好で、四分位数はあまり良くない、最小または最大のブートストラップは必ず失敗します。最初の点に関しては、状況に応じてブートストラップする必要はありません。2番目の点に関しては、勾配のブートストラップは完全に問題ありません。
1回の回帰ですべてを行うことは適切であり、独立性の仮定は重要です。しかし、この方法でポイント推定値を計算するには、一定の分散は必要ありません。このRコードを試してください。
x <- rbinom(100, 1, 0.5)
z <- rnorm(100)
y <- rnorm(100)
coef(lm(y~x*z))
coef(lm(y~z, subset= x==1))[1] - coef(lm(y~z, subset= x==0))[1]
coef(lm(y~z, subset= x==1))[2] - coef(lm(y~z, subset= x==0))[2]
どちらの方法でも同じポイント推定値が得られます。標準誤差の推定には一定の分散が必要になる場合があります(どちらを使用するかによって異なります)が、ここで考慮されるブートストラップは推定標準誤差を使用しません。