ブートストラップの長所と短所


11

ブートストラップの概念について学んだところ、素朴な疑問が浮かびました。データの多数のブートストラップサンプルを常に生成できるとしたら、どうしてもっと「実際の」データを取得する必要があるのでしょうか。

説明があると思いますが、私が正しいかどうか教えてください:ブートストラッププロセスにより分散が減少すると思いますが、元のデータセットがバイアスされている場合は、レプリカの数に関係なく、低い分散と高いバイアスに悩まされています私が取っています。


4
ブートストラップは、データ(およびモデル)に既に存在するよりも多くの情報を作成しません...実際のデータは、より多くの情報を提供します
Glen_b -Reinstate Monica

2
私はGlen_bがより多くの情報を作成しないことに同意しますが、それがあなたに少ない情報を提供できることに同意しません。私の回答で述べたように、それは常にうまくいくとは限りませんが、それはどの統計的方法についても言えることです。
Michael R. Chernick

1
興味深い質問-おそらく関連する概念は、なぜブートストラップが機能するのですか?。これを理解することは、それがいつ役立つかを知るのに役立ちます。私は、ブートストラップを、サンプリング分布の通常の近似に対する改善として考えました。極端ではない正常からの逸脱を処理できます。他の魅力的な機能は、分析/代数的作業を行う必要がないことです。レプリケーションがこれを行います。
確率論的

回答:


15

ブートストラップは、人口分布のパラメトリック形式を想定する必要がない方法で推論を行う方法です。元のサンプルを置き換えてサンプリングする場合でも、元のサンプルを母集団であるかのように扱いません。サイズnの元のサンプルからの置換によるサンプリングは、より大きな母集団からサイズnのサンプルを取得することを模倣していると想定しています。また、m <nであるサイズnのサンプルからm時間を再サンプリングするm out of nブートストラップなど、多くのバリアントがあります。ブートストラップの優れた特性は、漸近理論に依存します。他の人が述べたように、ブートストラップには、元のサンプルで提供されたものよりも多くの人口に関する情報は含まれていません。そのため、小さいサンプルではうまく機能しない場合があります。

Wileyが2007年に発行した私の本「Bootstrap Methods:A Practitioners Guide」の第2版では、ブートストラップが失敗する可能性がある状況を指摘しています。これには、有限のモーメントを持たない分布、小さなサンプルサイズ、分布からの極値の推定、および母集団サイズがNであり、大きなサンプルnが取られる調査サンプリングの分散の推定が含まれます。場合によっては、ブートストラップのバリアントが元のアプローチよりもうまく機能することがあります。これは、一部のアプリケーションでmからnのブートストラップで発生します。判別分析でエラー率を推定する場合、632ブートストラップは、他のブートストラップ方法を含む他の方法よりも優れています。

これを使用する理由は、パラメトリックな仮定に依存できないことがあり、状況によっては、ブートストラップが他の非パラメトリックな方法よりもうまく機能するためです。これは、非線形回帰、分類、信頼区間推定、バイアス推定、p値の調整、時系列分析など、さまざまな問題に適用できます。


6

ブートストラップサンプルは、元のサンプルに関する情報のみを伝えることができ、実際の母集団に関する新しい情報を提供しません。これは、信頼区間などを構築するためのノンパラメトリック手法です。

母集団についてより多くの情報を取得したい場合は、母集団からより多くのデータを収集する必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.