ブートストラップは、推定量のサンプリング分布にどれくらい近似していますか?


29

最近ブートストラップを研究した後、私はまだ私を困惑させる概念的な質問を思いつきました:

人口があり、人口属性、つまりを知りたい場合、ここで人口を表すためにを使用します。このは、たとえば平均です。通常、母集団からすべてのデータを取得することはできません。したがって、母集団からサイズサンプルを描画します。簡単にするためにiidサンプルがあると仮定します。次に、推定器を取得します。あなたは利用したいについて推論を行うためにあなたがの変動知っていただきたいと思いますので、 。θ=g(P)PθXNθ^=g(X)θ^θθ^

まず、真のサンプリング分布があります。概念的には、母集団から多くのサンプル(それぞれのサイズが)を描画できます。毎回異なるサンプルを取得するため、毎回実現します。最後に、真の分布を回復することができます。OK、これは少なくとも分布を推定するための概念的なベンチマークです。言い換えると、最終的な目標は、さまざまな方法を使用して真の分布を推定または近似することですθ^Nθ^=g(X) θθ^θ^θ^

さて、質問が来ます。通常、データポイントを含む1つのサンプルのみがあります。次に、このサンプルから何度もリサンプリングすると、ブートストラップ分布が作成されます。私の質問は、このブートストラップ分布はの真のサンプリング分布にどれだけ近いかということです。それを定量化する方法はありますか?XNθ^θ^


1
この非常に関連性の高い質問には、この質問をおそらく重複させるという点まで、豊富な追加情報が含まれています。
西安

まず、私の質問に迅速に答えてくれてありがとう。このウェブサイトを使用するのは初めてです。私の質問が正直に誰かの注意を引くとは思わなかった。「OP」とは何ですか?@Silverfish-
ケビンキム

@Chen Jin: "OP" =元のポスター(つまり、あなた!)。私が受け入れる略語の使用に対する謝罪は、潜在的に混乱を招く可能性があります。
シルバーフィッシュ

1
これが真の分布にどれだけ近いか:それはより密接に私の質問がある」ことを、あなたの声明一致するように、私はタイトルを編集したθをθ^?それを定量化する方法はありますか?」私の編集があなたの意図を反映していると思わない場合は、お気軽に元に戻してください。
シルバーフィッシュ

@Silverfishありがとうございます。このポスターを始めたとき、実際に私の質問についてはよくわかりません。この新しいタイトルは良いです。
ケビンキム

回答:


20

情報理論において、ある分布から別の分布への「近接」を定量化する一般的な方法は、KL発散を使用することです

高度に歪んだロングテールデータセット-ヒューストン空港への飛行機の到着の遅延(hflightsパッケージから)でそれを説明してみましょう。してみましょうθは平均推定なります。まず、サンプリング分布見つけるθをθ^θ^、との後、ブートストラップ分布θθ^

データセットは次のとおりです。

ここに画像の説明を入力してください

真の平均は7.09分です。

最初に、一定数のサンプルを実行して、のサンプリング分布を取得します 、我々は一つのサンプルを取り、そこから多くのブートストラップサンプルを取ります。θ^

たとえば、サンプルサイズが100回と5000回の繰り返しの2つの分布を見てみましょう。これらの分布はかなり離れており、KL発散は0.48であることが視覚的にわかります。

ここに画像の説明を入力してください

ただし、サンプルサイズを1000に増やすと、収束し始めます(KLの発散は0.11)

ここに画像の説明を入力してください

サンプルサイズが5000の場合、それらは非常に近い(KL発散は0.01)

ここに画像の説明を入力してください

これは、もちろん、あなたが得るが、私はあなたが私たちはサンプルサイズを増やすようKLダイバージェンスがダウンしていることがわかります信じている、とのようにブートストラップ分布たブートストラップ標本に依存θは、サンプル配布近づいθを KL発散の面で。確かに、いくつかのブートストラップを実行して、KL発散の平均を取ることができます。θ^θ^

この実験のRコードは次のとおりです:https : //gist.github.com/alexeygrigorev/0b97794aea78eee9d794


5
+1。これは、任意のサンプルサイズ(100など)に対して、ブートストラップバイアスが大きくなり、避けられないことも示しています。
アメーバは、モニカーを復活させる

これはすごい!だから、の分布させるためにはθブートストラップからは近いの真の分布になるθ、我々は大規模なサンプルサイズ必要なN権利を?サンプルサイズが固定されている場合、ブートストラップから生成される分布は、@ amoebaで言及されているTRUE分布とは大きく異なる場合があります。θ^θ^N
ケビンキム

次の質問は次のとおりです十分に大きく固定したら、2つのブートストラップを行いました。1つはB = 10回だけリサンプリングし、もう1つはB = 10000をリサンプリングします。分布の違いは何だθこれら2つのブートストラップから出てきますの?私たちが解決したときに、この質問は、本質的に求めているNを果たした役割何、Bの分布の生成にθを。@GrigorevNB=10B=10000θ^NBθ^
ケビンキム

1
@Chenが、分布θが右あなたがリサンプリングを行うことによって得られることを何か、ですか?したがって、B = 10B = 10000の違いは、ある場合には10個の数字を取得して分布を構築することです(あまり情報が少ないその標準偏差の推定値はあまり信頼できません)、他の場合には10000個の数字(さらに多くの信頼性のある)。θ^B=10B=100001010000
アメーバは、モニカを復活させる

1
@Chen、あなたは少し混乱しているか、あなたのコメントのが何であるかについて非常にはっきりしていないと思います。5回リサンプリングすると、5つの数値のセットが得られます。ディストリビューションはどうですか?それは数字のセットです!これらの数値は、F B分布と呼ばれるものに由来します。取得する数値が多いほど、F Bをより適切に推定できます。F555FBFB
アメーバは、モニカを復活させる

23

ブートストラップはある真CDFに経験的累積分布関数の収束に基づいて F NX = 1収束を(として、nが無限大になる) F X のすべてのためのx。よってのブートストラップ分布の収束 θX 1... X N= G F nが 速度で起こるこの収束により駆動さ

F^n(x)=1ni=1nIXixXiiidF(x)
nF(x)xθ^(X1,,Xn)=g(F^n)のためにX、以降n x、この速度と制限分布が自動的に転送されないにもかかわらず、G F N。実際には、近似の変動性を評価するために、あなたがの分布のブートストラップ評価生成することができますグラムを F
n{F^n(x)F(x)}distN(0,F(x)[1F(x)])
g(F^n)g(F^n)ダブルブートストラップ、つまり、ブートストラップ評価のブートストラップ。

更新として、ここで私はクラスでの使用を示す図である: ここに画像の説明を入力してください LHSが真CDF比較どこ経験的累積分布関数と F Nのために、N = 100人の観察とRHSプロット 250の LHSの複製、250個の異なるサンプルについて、順にcdf近似の変動性を測定します。この例では、真実を知っているため、真実からシミュレーションして変動性を評価できます。現実的な状況では、私は知らない Fを、したがって、私はから開始する必要があり、F nは同様のグラフを生成する代わりに。FF^nn=100250FF^n

更なる更新:経験的cdfから開始したときのチューブの画像は次のようになります。 ここに画像の説明を入力してください


5
この答えの核心は、ブートストラップが大きなサンプルの近似であるため、ブートストラップが機能することです。この点が十分に強調されているとは思わない
シャドウトーカー

2
つまり

F^n=100

3
FnF

@ Xi'anとても素敵です!2番目と3番目の図を1つの図に一緒に組み合わせることができればさらにいいでしょう
ケビンキム
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.