ブートストラップの概念について学んだところ、素朴な疑問が浮かびました。データの多数のブートストラップサンプルを常に生成できるとしたら、どうしてもっと「実際の」データを取得する必要があるのでしょうか。
説明があると思いますが、私が正しいかどうか教えてください:ブートストラッププロセスにより分散が減少すると思いますが、元のデータセットがバイアスされている場合は、レプリカの数に関係なく、低い分散と高いバイアスに悩まされています私が取っています。
ブートストラップの概念について学んだところ、素朴な疑問が浮かびました。データの多数のブートストラップサンプルを常に生成できるとしたら、どうしてもっと「実際の」データを取得する必要があるのでしょうか。
説明があると思いますが、私が正しいかどうか教えてください:ブートストラッププロセスにより分散が減少すると思いますが、元のデータセットがバイアスされている場合は、レプリカの数に関係なく、低い分散と高いバイアスに悩まされています私が取っています。
回答:
ブートストラップは、人口分布のパラメトリック形式を想定する必要がない方法で推論を行う方法です。元のサンプルを置き換えてサンプリングする場合でも、元のサンプルを母集団であるかのように扱いません。サイズnの元のサンプルからの置換によるサンプリングは、より大きな母集団からサイズnのサンプルを取得することを模倣していると想定しています。また、m <nであるサイズnのサンプルからm時間を再サンプリングするm out of nブートストラップなど、多くのバリアントがあります。ブートストラップの優れた特性は、漸近理論に依存します。他の人が述べたように、ブートストラップには、元のサンプルで提供されたものよりも多くの人口に関する情報は含まれていません。そのため、小さいサンプルではうまく機能しない場合があります。
Wileyが2007年に発行した私の本「Bootstrap Methods:A Practitioners Guide」の第2版では、ブートストラップが失敗する可能性がある状況を指摘しています。これには、有限のモーメントを持たない分布、小さなサンプルサイズ、分布からの極値の推定、および母集団サイズがNであり、大きなサンプルnが取られる調査サンプリングの分散の推定が含まれます。場合によっては、ブートストラップのバリアントが元のアプローチよりもうまく機能することがあります。これは、一部のアプリケーションでmからnのブートストラップで発生します。判別分析でエラー率を推定する場合、632ブートストラップは、他のブートストラップ方法を含む他の方法よりも優れています。
これを使用する理由は、パラメトリックな仮定に依存できないことがあり、状況によっては、ブートストラップが他の非パラメトリックな方法よりもうまく機能するためです。これは、非線形回帰、分類、信頼区間推定、バイアス推定、p値の調整、時系列分析など、さまざまな問題に適用できます。