ブートストラップとベイジアンブートストラップの概念は?


21

ベイジアンブートストラッププロセスとは何か、それが通常のブートストラップとどのように異なるかを理解するのに苦労しています。誰かが両方の直感的/概念的なレビューと比較を提供できれば、それは素晴らしいことです。

例を見てみましょう。

[1,2,5,7,3]であるデータセットXがあるとします。

置換で複数回サンプリングして、Xのサイズに等しいサンプルサイズ([7,7,2,5,7]、[3,5,2,2,7]など)を作成し、その後、それぞれの平均を計算し、サンプルのブートストラップ分布は平均ですか?

そのベイジアンブートストラップ分布は何でしょうか?

そして、他のパラメーター(分散など)のベイジアンブートストラップ分布は同じ方法でどのように行われますか?


4
sumsar.net/blog/2015/04/…およびprojecteuclid.org/euclid.aos/1176345338を参照してください。多分@rasmus-bååthが答えてくれるかもしれません;)
ティム

回答:


27

(フリークエンシスト)ブートストラップは、データを未知の母集団分布の合理的な近似として取得します。したがって、統計のサンプリング分布(データの関数)は、置換を使用して観測値を繰り返しリサンプリングし、各サンプルごとに統計を計算することで近似できます。

ましょう元のデータを示します。(与えられた例では、n = 5。)y b = y b 1y b nがブートストラップのサンプルを示すとします。このようなサンプルでは、​​いくつかの観測が1回以上繰り返される可能性が高く、他の観測はありません。ブートストラップサンプルの平均は、与えられの分布ですy=(y1,,yn)n=5yb=(y1b,,ynb)mb

mb=1ni=1nyib.
mb 未知の母集団からのサンプリング分布を近似するために使用される多くのブートストラップ複製にわたって。

頻度の高いブートストラップとベイジアンブートストラップの関係を理解するには、を別の観点から計算する方法を見ることはです。mb

各ブートストラップサンプル中の、各観測Y iはどこでも0から発生するN倍。ましょH B iは回数表し、Y iは、で発生Y bは、とlet H B = H B 1... 時間B N。したがって、H B I{ 0 1 ... N - 1 N }ybyinhibyiybhb=(h1b,,hnb)hib{0,1,,n1,n} ihbが与えられると、合計が1になる非負の重みのコレクションwb=hb/nを構築できます。ここでw b i =h b i /nです。この表記法を使用すると、ブートストラップサンプルの平均をmb=n i=1w bとして再表現できます。 i=1nhib=nhbwb=hb/nwib=hib/n

mb=i=1nwibyi.

ブートストラップサンプルの観測値の選択方法によって、結合分布が決まります。特に、h bwbhbには多項分布があるため、したがって、分布から w bを描画し、次の式で内積を計算することにより、 m bを計算できます。

nwb多項n1/n=1n
mbwbます。この新しい観点からは、重みが変化している間、観測は固定されているように見えます。y

ベイジアン推論では、観測は確かに固定されているとみなされるため、この新しい視点はベイジアンアプローチと相性が良いようです。実際、ベイジアンブートストラップによる平均の計算は、重みの分布のみが異なります。(それにもかかわらず、概念的な観点からは、ベイジアンブートストラップは頻繁なバージョンとはまったく異なります。)データは固定され、重みwは未知のパラメーターです。未知のパラメーターに依存するデータの機能に興味があるかもしれません: μ = n i = 1yw

μ==1nwy

次に、ベイジアンブートストラップの背後にあるモデルのサムネイルスケッチを示します。観測のサンプリング分布は多項分布であり、重みの事前分布はシンプレックスの頂点にすべての重みを置く制限ディリクレ分布です。(一部の著者は、このモデルを多項尤度モデルと呼んでいます。)

このモデルは、重みのために、次の事後分布を生成します: (この分布はシンプレックス上で平坦です。)重みの2つの分布(度数分布とベイジアン)は非常に似ています。平均と共分散が同じです。ディリクレ分布は多項分布よりも「滑らか」であるため、ベイジアンブートストラップは平滑化ブートストラップと呼ばれる場合があります。頻度の高いブートストラップは、ベイジアンブートストラップの近似として解釈できます。

wDirichlet(1,,1).

重みの事後分布が与えられた場合、ディリクレ分布からwを繰り返しサンプリングし、内積を計算することにより、関数事後分布を近似できます。μwy

方程式 n i = 1推定するフレームワークを採用できます。

i=1nwig(yi,θ)=0_,
g(yi,θ)θ0_θyww経験的尤度および一般化モーメント法(GMM)を使用)

i=1nwi(yiμ)=0.
θ=(μ,v)
g(yi,θ)=(yiμ(yiμ)2v).

1
非常に詳細な説明をありがとう。個人的には、それぞれをいつ選択するかについての簡単な説明をいただければ幸いです。
ErichBSchulz
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.