ブートストラップ-誰かが私を始めるための簡単な説明を提供できますか？

9

ブートストラップについて読む試みはいくつかありますが、私はいつもレンガの壁にぶつかるようです。誰かがブートストラップの非技術的な合理的な定義を与えることができるのだろうか？

私は私は完全にそれを理解するために有効にするために十分な詳細を提供するために、このフォーラムでは不可能です知っているが、主な目的とブートストラップのメカニズムと右方向に緩やかなプッシュをされるだろう多くの感謝します！ありがとう。

nonparametric bootstrap intuition

— pmgjones
ソース

8

ブートストラップに関するウィキペディアのエントリは実際には非常に優れています。

http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29

ブートストラップが適用される最も一般的な理由は、サンプルが取得される基になる分布の形式が不明な場合です。従来、統計学者は（中央極限定理に関連する非常に良い理由で）正規分布を仮定していますが、正規分布理論によって推定された統計（標準偏差、信頼区間、検出力計算など）は、基になる人口分布が次の場合にのみ厳密に有効です。正常。

サンプル自体を繰り返し再サンプリングすることにより、ブートストラップは分布に依存しない推定を可能にします。従来、元のサンプルの各「リサンプル」は、元のサンプルと同じ数の観測をランダムに選択します。ただし、これらは交換により選択されます。サンプルにN個の観測がある場合、各ブートストラップ再サンプルにはN個の観測があり、元のサンプルの多くが繰り返され、多くが除外されます。

関心のあるパラメータ（オッズ比など）は、ブートストラップされた各サンプルから推定できます。ブートストラップを1000回繰り返すと、2.5パーセンタイル、50パーセンタイル、97.5パーセンタイルを選択することで、統計の「中央値」と95％信頼区間（オッズ比など）を推定できます。

— チラコレオ
ソース

8

アメリカの科学者は最近、ブートストラップに関するCosma Shaliziによる素晴らしい記事を掲載しました。これはかなり読みやすく、概念を理解するために必要なものを提供します。

— ars
ソース

7

非常に広く：直観と名前の由来（「ブートストラップによって自分を引き上げる」）は、サンプルのプロパティを使用して母集団に関する推論を引き出す際に、統計（統計の「逆」問題）を引き出すという観察に由来します。推論）、私たちは誤ることを期待します。そのエラーの性質を見つけるには、サンプル自体をそれ自体の母集団として扱い、サンプルからサンプルを引き出すときに推論手順がどのように機能するかを調べます。それは「フォワード」問題です：あなたはあなたのサンプル-についてのすべてを知っている資格を-人口とそれについて何も推測する必要はありません。あなたの研究は（a）あなたの推論手順が偏っているかもしれない程度と（b）あなたの手順の統計的エラーのサイズと性質を示唆します。したがって、この情報を使用して、元の見積もりを調整します。多くの（ただしすべてではない）状況では、調整されたバイアスは漸近的にはるかに低くなります。

この回路図の説明から得られる洞察の1つは、ブートストラップがシミュレーションやサブサンプリングの繰り返しを必要としないことです。これらはたまたま、オムニバスであり、母集団がわかっているときにあらゆる種類の統計手順を研究するための計算的に扱いやすい方法です。数学的に計算できるブートストラップ推定はたくさんあります。

この答えは、ピーターホールの著書「The Bootstrap and Edgeworth Expansion」（Springer 1992）、特にブートストラップの「主な原理」についての彼の説明によるものです。

— whuber
ソース

私はこの「オリジナル」のアプローチが好きです（他のエントリーを書いた）。それでも、ブートストラップが実際に機能する理由を説明するのは常に難しいと

— 感じ

4

ブートストラップに関するWikiには、次の説明があります。

ブートストラップにより、通常は1つのサンプルから計算される単一の統計の多くの代替バージョンを収集できます。たとえば、世界中の人々の身長に関心があると仮定します。すべての母集団を測定することはできないため、その一部のみをサンプリングします。そのサンプルから得られるのは統計の1つの値、つまり1つの平均、または1つの標準偏差などであり、そのため、統計がどの程度変化しているかはわかりません。ブートストラップを使用する場合、N個のサンプルデータからn個の高さの新しいサンプルをランダムに抽出します。各人は最大でt回選択できます。これを数回実行することで、見た可能性のある多数のデータセットを作成し、これらの各データセットの統計を計算します。したがって、統計の分布の推定値が得られます。

上記の説明で理解できない部分を明確にできる場合は、さらに詳しく説明します。

4

私はそれを次のように考えるのが好きです：母集団からランダムなサンプルデータセットを取得する場合、おそらくそのサンプルはソース母集団のサンプルとほぼ一致する特性を持っているでしょう。したがって、分布の特定の特徴（その歪度など）の信頼区間を取得することに関心がある場合は、サンプルを疑似母集団として扱い、そこからランダムな疑似サンプルの多くのセットを取得して、それぞれに関心のある機能の値。元のサンプルが母集団とほぼ一致すると仮定すると、「置換あり」の疑似母集団からサンプリングすることで疑似サンプルを取得できることも意味します（たとえば、値をサンプリングして記録し、元に戻すことで、各値複数回観察される可能性があります。）

— マイク・ローレンス
ソース

3

ブートストラップは、本質的には繰り返し実験のシミュレーションです。ボールが入った箱があり、ボールの平均サイズを求めたいとしましょう。そのため、いくつかのボールを描き、測定して平均を求めます。次に、分布を取得するために、たとえば標準偏差を取得するためにそれを繰り返したいと思いますが、誰かがボックスを盗んだことがわかりました。
今できることは、あなたが持っているもの、つまりこの一連の測定を使用することです。アイデアは、ボールを新しいボックスに入れて、同じ数のボールを交換して描画することによって元の実験をシミュレートすることです。両方とも同じサンプルサイズとある程度のばらつきを持たせるためです。これを何度も繰り返して、平均分布を概算するために最終的に使用できる一連の平均を取得できます。

3

これがブートストラップの本質です。データのさまざまなサンプルを取り、各サンプルの統計（たとえば、平均、中央値、相関、回帰係数など）を取得し、サンプル全体の統計の変動性を使用して、約を示します統計の標準誤差と信頼区間。- ブートストラップとRのブートパッケージ

— ジェロミー・アングリム
ソース