まず、共役事前分布とは何かを説明します。次に、特定の例を使用してベイジアン分析について説明します。ベイジアン統計には、次の手順が含まれます。
- パラメーターに関する主観的な信念を組み込んだ事前分布を定義します(この例では、関心のあるパラメーターは左利きの割合です)。事前情報は、「情報量の少ない」または「情報量の多い」ことができます(ただし、情報のない事前情報はありません。こちらの説明を参照してください)。
- データを集めます。
- ベイズの定理を使用して事前分布をデータで更新し、事後分布を取得します。事後分布は、データを見た後のパラメーターに関する更新された信念を表す確率分布です。
- 事後分布を分析し、それを要約します(平均、中央値、SD、分位数、...)。
すべてのベイジアン統計の基礎はベイズの定理です。
posterior∝prior×likelihood
あなたの場合、尤度は二項です。事前分布と事後分布が同じファミリーに属する場合、事前分布と事後分布は共役分布と呼ばれます。事後分布もベータ分布なので、ベータ分布は事前共役です。ベータ分布は、二項尤度の共役族であると言います。共役解析は便利ですが、実際の問題ではめったに起こりません。ほとんどの場合、事後分布はMCMCを介して数値的に検出する必要があります(Stan、WinBUGS、OpenBUGS、JAGS、PyMCまたはその他のプログラムを使用)。
事前確率分布が1に統合されない場合、それは不適切な事前分布と呼ばれ、1に統合される場合、適切な事前分布と呼ばれます。ほとんどの場合、不適切な事前分布はベイジアン分析にとって大きな問題にはなりません。ただし、事後分布は適切でなければなりません。つまり、事後分布は 1に統合する必要があります。
これらの経験則は、ベイジアン解析手順の性質に直接従っています。
- 事前情報が有益でない場合、事後はデータによって非常に決定されます(事後はデータ駆動型です)
- 事前情報が有益な場合、事後情報は事前情報とデータの混合です
- 情報量が多いほど、信念を「変更」するために必要なデータが多くなります。つまり、事後は前の情報によって大きく左右されるためです。
- 大量のデータがある場合、データが事後分布を支配します(前のものを圧倒します)
この投稿では、ベータ分布の可能性のある「情報」および「情報なし」事前分布の優れた概要を見つけることができます。
前のベータがであるとします。ここで、は左利きの割合です。事前パラメーターおよびを指定するには、ベータ分布の平均と分散を知ることが役立ちます(たとえば、事前に特定の平均と分散を持たせる場合)。平均はです。したがって、場合、平均はです。ベータ分布の分散はです。さて、便利なのはと考えることができることですBeta(πLH|α,β)πLHαβπ¯LH=α/(α+β)α=β0.5αβ(α+β)2(α+β+1)αβ以前に観測された(擬似)データ、つまり、サイズ(擬似)サンプルからの左利きおよび右。分布が均一である(すべての値等しく可能性あり)とうち2人を観察したのと同じですそのうちの1つは左利きで、もう1つは右利きです。αβneq=α+βBeta(πLH|α=1,β=1)πLH
事後ベータ分布は、単にここで、はサンプルのサイズで、はサンプルの左利きの数です。事後平均ことである。したがって、事後ベータ分布のパラメーターを見つけるには、の左利きを、右利きを追加するだけです。事後分散はBeta(z+α,N−z+β)NzπLH(z+α)/(N+α+β)zαN−zβ(z+α)(N−z+β)(N+α+β)2(N+α+β+1)。情報量の多い事前分布は、事後分布の分散が小さくなることにも注意してください(下のグラフは、この点をうまく示しています)。
あなたの場合、とあり、あなたの事前分布は情報量の少ないユニフォームなので、です。したがって、事後分布はです。事後平均はです。これは、事前確率、データの尤度、および事後確率を示すグラフですz=2N=18α=β=1Beta(3,17)π¯LH=3/(3+17)=0.15
以前の分布は情報に乏しいため、事後分布は完全にデータに基づいていることがわかります。また、事後分布の最高密度間隔(HDI)もプロットされています。後部の分布を2D盆地に置き、分布の95%が喫水線より上になるまで水を満たし始めると想像してください。ウォーターラインが事後分布と交差するポイントは、95%-HDIを構成します。HDI内のすべてのポイントは、HDIの外部のどのポイントよりも高い確率を持っています。また、HDIには常に事後分布のピーク(つまりモード)が含まれます。HDIは、後部の各尾から2.5%が除外されている、等しい尾の95%信頼区間とは異なります(こちらを参照)。
2番目のタスクでは、人口の5〜20%が左利きであるという情報を組み込むように求められます。それにはいくつかの方法があります。最も簡単な方法は、前のベータ分布の平均がと平均であるあると言うことです。しかし、前のベータ分布のおよびを選択する方法は?最初に、同等のサンプルサイズ擬似サンプルから、事前分布の平均をしたい。より一般的には、事前に擬似サンプルサイズ平均が必要な場合、対応する0.1250.050.2αβ0.125neqmneqαおよび値は、およびです。あとは、擬似サンプルサイズを選択するだけですこれにより、以前の情報に対する自信度が決まります。以前の情報について非常に確信しており、設定したとしましょう。事前分布のパラメーターは、および 1-0.125です。事後分布はであり、平均は約これは、前の平均と実質的に同じです。βα=mneqβ=(1−m)neqneqneq=1000α=0.125⋅1000=125β=(1−0.125)⋅1000=875Beta(127,891)0.1250.125。事前情報が事後を支配しています(次のグラフを参照)。
以前の情報について確信が持てない場合は、疑似サンプルのをたとえばに設定すると、以前のベータ分布に対しておよびられます。事後分布はであり、平均は約です。データが事前平均を圧倒するため、事後平均はデータの平均()に近くなりました。状況を示すグラフは次のとおりです。neq10α=1.25β=8.75Beta(3.25,24.75)0.1160.111
事前情報を組み込むより高度な方法は、事前ベータ分布の分位が約で、分位が約です。これは、人口の左利きの割合が5%から20%の間であることを95%確信しているということと同じです。Rパッケージの関数は、そのような変位値に対応するベータ分布の対応するおよび値を計算します。コードは0.0250.050.9750.2beta.select
LearnBayes
αβ
library(LearnBayes)
quantile1=list(p=.025, x=0.05) # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2) # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)
[1] 7.61 59.13
偶然に持つベータ分布と思われると所望の特性を持っています。以前の平均はで、データの平均()に近い値です。繰り返しますが、この事前分布には、約同等のサンプルサイズの擬似サンプルの情報が組み込まれています。事後分布はであり、平均はこれは、非常に有益なを使用した以前の分析の平均と同等です。対応するグラフは次のとおりです。α=7.61β=59.137.61/(7.61+59.13)≈0.1140.111neq≈7.61+59.13≈66.74Beta(9.61,75.13)0.113Beta(125,875)
ベイジアンの推論と単純な分析の短いが、私見の良い概要については、このリファレンスも参照してください。共役解析、特に二項データの詳細な紹介は、ここにあります。ベイジアン思考への一般的な紹介はここで見つけることができます。ベイジアン統計の側面に関するその他のスライドはこちらです。