私もブートストラップとベイズの定理の両方に魅了されましたが、ベイズの観点から見るまでブートストラップの正当性を理解することはできませんでした。次に、以下で説明するように、ブートストラップ分布はベイジアン事後分布として見ることができます。これにより、ブートストラップの背後にある(a?)理論的根拠が明らかになり、仮定を明確にするという利点もありました。https://arxiv.org/abs/1803.06214(22-26ページ)に、以下の引数の詳細と前提条件があります。
例として、http: //woodm.myweb.port.ac.uk/SL/resample.xlsxのスプレッドシートに設定されています(画面の下部にあるブートストラップタブをクリックします)。平均値60の9つの測定値のサンプル。スプレッドシートを使用して、このサンプルから置き換えて1000個のリサンプルを生成し、平均値を最も近い偶数に丸めた場合、これらの平均値の82は54でした。サンプルを「ふり」母集団として使用して、9のサンプルの平均がどの程度変動する可能性があるかを確認します。そのため、サンプル平均が母平均より6低い確率(この場合は、平均60)のサンプルは8.2%です。また、リサンプリングヒストグラムの他のバーについても同様の結論に達することができます。
ここで、真実は実母集団の平均が66であると想像してみましょう。これがそうであれば、サンプル平均が60(つまりデータ)になる確率の推定値は8.2%(上記の段落の結論を使用して) 60は仮説人口平均66の下6です。これを書いてみましょう
P(与えられたデータの平均= 66)= 8.2%
この確率は、リサンプリング分布のx値54に対応します。同じ種類の引数が、0、2、4 ... 100の各可能な母平均に適用されます。それぞれの場合、確率はリサンプリング分布に由来しますが、この分布は平均60について反映されます。
次に、ベイズの定理を適用しましょう。問題の測定は0から100の間の値のみを取ることができるため、母平均の可能性が0、2、4、6、.... 100である最も近い偶数に丸めます。事前分布がフラットであると仮定すると、これらのそれぞれは2%(1 dpまで)の事前確率を持ち、ベイズの定理は
P(PopMean = 66与えられたデータ)= 8.2%* 2%/ P(データ)
どこ
P(データ)= P(PopMean = 0指定データ)* 2%+ P(PopMean = 2指定データ)* 2%+ ... + P(PopMean = 100指定データ)* 2%
ここで2%をキャンセルし、確率は単純にリサンプリング分布からのものであるため、確率の合計は1でなければならないことに注意してください。それは私たちに結論を残します
P(PopMean = 66)= 8.2%
8.2%は(66の代わりに)54に対応するリサンプリング分布からの確率であることを思い出して、事後分布は単にサンプル平均について反映されたリサンプリング分布です(60)。さらに、非対称性がランダムであるという意味でリサンプリング分布が対称である場合-これおよび他の多くの場合と同様に、リサンプリング分布は事後確率分布と同一であるとみなすことができます。
この議論はさまざまな仮定を立てますが、主なものは事前分布が均一であることです。これらについては、上記の記事で詳しく説明しています。