(フリークエンシスト)ブートストラップは、データを未知の母集団分布の合理的な近似として取得します。したがって、統計のサンプリング分布(データの関数)は、置換を使用して観測値を繰り返しリサンプリングし、各サンプルごとに統計を計算することで近似できます。
ましょう元のデータを示します。(与えられた例では、n = 5。)y b = (y b 1、… 、y b n)がブートストラップのサンプルを示すとします。このようなサンプルでは、いくつかの観測が1回以上繰り返される可能性が高く、他の観測はありません。ブートストラップサンプルの平均は、与えられの分布ですy=(y1,…,yn)n=5yb=(yb1,…,ybn)mb
mb=1n∑i=1nybi.
mb 未知の母集団からのサンプリング分布を近似するために使用される多くのブートストラップ複製にわたって。
頻度の高いブートストラップとベイジアンブートストラップの関係を理解するには、を別の観点から計算する方法を見ることはです。mb
各ブートストラップサンプル中の、各観測Y iはどこでも0から発生するN倍。ましょH B iは回数表し、Y iは、で発生Y bは、とlet H B = (H B 1、... 、時間B N)。したがって、H B I ∈ { 0 、1 、... 、N - 1 、N }とybyinhbiyiybhb=(hb1,…,hbn)hbi∈{0,1,…,n−1,n} i。hbが与えられると、合計が1になる非負の重みのコレクションwb=hb/nを構築できます。ここでw b i =h b i /nです。この表記法を使用すると、ブートストラップサンプルの平均をmb=n ∑ i=1w bとして再表現できます。
∑ni=1hbi=nhbwb=hb/nwbi=hbi/n
mb=∑i=1nwbiyi.
ブートストラップサンプルの観測値の選択方法によって、結合分布が決まります。特に、h bwbhbには多項分布があるため、したがって、分布から w bを描画し、次の式で内積を計算することにより、 m bを計算できます。
(nwb)〜多項(n 、(1 / n )ni = 1)。
mbwbます。この新しい観点からは、重みが変化している間、観測は
固定されているように見えます。
y
ベイジアン推論では、観測は確かに固定されているとみなされるため、この新しい視点はベイジアンアプローチと相性が良いようです。実際、ベイジアンブートストラップによる平均の計算は、重みの分布のみが異なります。(それにもかかわらず、概念的な観点からは、ベイジアンブートストラップは頻繁なバージョンとはまったく異なります。)データは固定され、重みwは未知のパラメーターです。未知のパラメーターに依存するデータの機能に興味があるかもしれません:
μ = n ∑ i = 1yw
μ = ∑i = 1nw私y私。
次に、ベイジアンブートストラップの背後にあるモデルのサムネイルスケッチを示します。観測のサンプリング分布は多項分布であり、重みの事前分布はシンプレックスの頂点にすべての重みを置く制限ディリクレ分布です。(一部の著者は、このモデルを多項尤度モデルと呼んでいます。)
このモデルは、重みのために、次の事後分布を生成します:
(この分布はシンプレックス上で平坦です。)重みの2つの分布(度数分布とベイジアン)は非常に似ています。平均と共分散が同じです。ディリクレ分布は多項分布よりも「滑らか」であるため、ベイジアンブートストラップは平滑化ブートストラップと呼ばれる場合があります。頻度の高いブートストラップは、ベイジアンブートストラップの近似として解釈できます。
w∼Dirichlet(1,…,1).
重みの事後分布が与えられた場合、ディリクレ分布からwを繰り返しサンプリングし、内積を計算することにより、関数事後分布を近似できます。μwy
方程式
n ∑ i = 1を推定するフレームワークを採用できます。
∑i=1nwig(yi,θ)=0–,
g(yi,θ)θ0–θyww経験的尤度および一般化モーメント法(GMM)を使用)
∑i=1nwi(yi−μ)=0.
θ=(μ,v)g(yi,θ)=(yi−μ(yi−μ)2−v).