ブートストラップ方法論。ランダムサブサンプリングの代わりに「置換あり」でリサンプリングするのはなぜですか?


11

ブートストラップ法はここ数年で大きな普及を見せています。特に背後にある推論が非常に直感的であるため、私もそれを頻繁に使用しています。

しかし、それは私が理解していないことの1つです。なぜエフロンが単一の観測をランダムに含めたり除外したりすることによる単純なサブサンプリングの代わりに、置換を伴うリサンプリングを選択したのですか?

ランダムサブサンプリングには1つの非常に優れた品質があると思います。これは、理想的には、私たちの調査で得られた観測が仮想母集団のサブセットである実際の状況を表しています。リサンプリング中に観測値を乗算することの利点はわかりません。実際の状況では、特に複雑な多変量の状況では、他の観測値と類似する観測値はありません。


3
モデルを考えると、それが正しいことなので、リサンプリングによるリサンプリングが行われます。ブートストラップの背後にあるモデルは、ノンパラメトリックな最尤法を使用して累積分布関数を推定し、推定された累積分布関数から独立した観測値をサンプリングすることです。考えてみてください---アルゴリズム的には、元のサンプルを置き換えてサンプリングすることで得られます。
kjetil b halvorsen 2015

回答:


10

この選択を理解する1つの方法は、手元にあるサンプルを、基礎となる母集団の最良の表現であると考えることです。母集団全体をサンプリングする必要はありませんが、母集団のこの特定の表現はあります。母集団のこの表現からの真にランダムな再サンプリングは、置換してサンプリングする必要があることを意味します。さもなければ、後のサンプリングは最初のサンプリングの結果に依存します。特定のブートストラップサンプルに繰り返されるケースが存在することは、その特定の繰り返されるケースの特性に近い特性を持つ基礎となる母集団のメンバーを表します。Leave-one-outまたはleave-several-outのアプローチを使用することもできますが、これはブートストラップではなく相互検証です。

これは、@ kjetil_b_halvorsenからのコメントを言い換えれば、


要点はわかります。ブートストラップサンプルの個々の観測を互いに独立させます。文献には、サブサンプリングに基づく方法が存在します。Politis、Romano、Wolfを参照してください。置換なしで選択されたnの固定サブセットmを使用します。彼らはあなたが前に言った落とし穴をどのように避けますか?彼らの場合も、ランダムなサブサンプルの代わりに固定サイズのサブサンプルを使用する理由がわかりません。
Bakaburg、2015

2
サブサンプリングメソッドは、ブートストラップとは異なる何かを実現しようとしています。これらのメソッドは、基になる母集団から新しいランダムサンプルをエミュレートするのではなく、データサンプルからランダムサブセットを選択しようとしています。どちらかが間違っているということではありません。それらは、特定の長所と短所を持つ異なるアプローチです。
EdM、2015

したがって、推論統計における2つの方法の違いについて、新しい質問をする必要があるかもしれません。ありがとう!
Bakaburg、2015

@Bakaburgは、ブートストラップとクロス検証(これは特定のタイプのサブサンプリングです)に関する文献への優れた紹介について、この質問を参照してください。
EdM、2015

@Bakaburgブートストラップ法は、より大きな母集団からサイズn(nよりも小さいサブセットではない)のランダムサンプルを繰り返し独立して描画することをシミュレートしています。これは、ランダムなサンプルに親母集団からの非常に小さい値または大きい値が多数含まれ、元のサンプルではしばしば過小評価されていると考えられることを意味します。EdMが指摘したように、置換付きリサンプリングを使用すると、単一のサンプル観測で、類似した値を持つ母集団内の複数の観測値を「表す」ことができます。これは、母集団分布の滑らかな近似値を取得する方法です。
RobertF
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.