平均して、各ブートストラップサンプルに約3分の2の観測が含まれているのはなぜですか?


42

私は、各ブートストラップサンプル(またはバギングされたツリー)に平均約の観測値が含まれるという主張に出くわしました。2/3

置換されたサンプルからの描画のいずれでも選択されない可能性はであり、選択されない可能性は約になると理解しています。nn(11/n)n1/3

この式が常にを与える理由の数学的な説明は何ですか?1/3


10
これがブートストラップ632+ルールのの起源だと思います。.632
GUNG -復活モニカ

回答:


29

基本的に、問題は (そしてもちろんe ^ {-1} = 1 / e \ approx 1/3、少なくとも大体)。limn(11/n)n=e1
e1=1/e1/3

非常に小さいnでは機能しません。nたとえば、n=2(11/n)n=14です。それは通過13n=6、通過0.35n=11、および0.366することによってn=99n = 11を超えるとn=111e\ frac {1} {3}よりも優れた近似になり13ます。

ここに画像の説明を入力してください

灰色の破線は13ます。赤と灰色の線は1eます。

(簡単に見つけることができる)正式な派生を示すのではなく、(少し)より一般的な結果が成り立つ理由の概要(直観的で、波打った引数)を示します。

ex=limn(1+x/n)n

(多くの人はこれを定義とますが、として定義するなどの簡単な結果から証明できます。)exp(x)elimn(1+1/n)n

事実1:これは、べき乗とべき乗に関する基本的な結果から得られますexp(x/n)n=exp(x)

事実2:が大きい場合、これは級数展開から得られます。nexp(x/n)1+x/nex

(私はこれらのそれぞれについてより完全な議論をすることができますが、私はあなたがすでにそれらを知っていると仮定します)

(1)の(2)を置き換えます。できた (これをより正式な議論として機能させるには、Fact 2の残りの項が乗したときに問題を引き起こすほど大きくならないことを示す必要があるため、多少の作業が必要になります。しかし、これは直観です。正式な証拠ではありません。)n

[または、のテイラー級数を1次にするだけです。2番目の簡単なアプローチは、の二項展開を取得し、用語ごとに制限を取得することです。これにより、系列の項が表示されます。。]exp(x/n)(1+x/n)nexp(x/n)

したがって、、置き換えます。ex=limn(1+x/n)nx=1

すぐに、この回答の先頭に結果が表示されます。limn(11/n)n=e1


gungがコメントで指摘しているように、あなたの質問の結果は632ブートストラップルールの起源です

Efron、B. and R. Tibshirani(1997)、
"Improvements on Cross-Validation:The .632+ Bootstrap Method、"
Journal of the American Statistical Association Vol。92、438.(Jun)、pp。548-560


41

より正確には、各ブートストラップサンプル(またはバギングツリー)には、サンプルのが含まれます。11e0.632

ブートストラップの仕組みを見ていきましょう。私たちは、元のサンプル持ってして、その中のアイテム。サイズ別のセットが得られるまで、この元のセットから置換されたアイテムを描画します。x1,x2,xnnn

それから、最初のドローで1つのアイテム(たとえば)を選択する確率はます。したがって、そのアイテムを選択しない確率はです。これは最初の引き分けです。合計ドローがあり、それらはすべて独立しているため、ドローのいずれかでこのアイテムを選択しない確率はです。x11n11nn(11n)n

次に、が大きくなるとどうなるかを考えてみましょう。通常の微積分トリック(またはWolfram Alpha)を使用して、が無限大に向かうにつれて制限をとることができます: nn

limn(11n)n=1e0.368

これは、アイテムが選択されない確率です。1からそれを減算して、選択されているアイテムの確率を見つけます。これにより、0.632が得られます。


5

置換によるサンプリングは、「成功」が選択されているインスタンスである二項試行のシーケンスとしてモデル化できます。インスタンスの元のデータセットの場合、「成功」の確率はであり、「失敗」の確率はです。サンプルサイズがの場合、インスタンスを正確に回選択する確率は、二項分布で与えられます。n1/n(n1)/nbx

P(x,b,n)=(1n)x(n1n)bx(bx)

ブートストラップサンプルの特定の場合、サンプルサイズはインスタンスと等しくなります。まかせアプローチの無限大を、我々が得ます:bnn

limn(1n)x(n1n)nx(nx)=1ex!

元のデータセットが大きい場合、この式を使用して、ブートストラップサンプルでインスタンスが正確に回選択される確率を計算できます。以下のために、確率は、またはおおよそ。したがって、インスタンスが少なくとも1回サンプリングされる確率はです。xx=01/e0.36810.368=0.632

言うまでもなく、私はこれをペンと紙を使って苦労して導き出し、Wolfram Alphaを使用することさえ考えませんでした。


3

@retsregの答えに追加するだけで、これはRの数値シミュレーションを介して非常に簡単に実証できます。

N <- 1e7 # number of instances and sample size
bootstrap <- sample(c(1:N), N, replace = TRUE)
round((length(unique(bootstrap))) / N, 3)
## [1] 0.632

1

これは、カウントすることで簡単に確認できます。合計可能サンプル数は?n ^ n。特定の値を含まないものはいくつですか?(n-1)^ n。特定の値を持たないサンプルの確率-(1-1 / n)^ n。これは限界の約1/3です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.