ベイズの事前分布と事後分布の理解を助けてください


125

学生のグループでは、18人のうち2人が左利きです。情報価値のない事前分布を仮定して、人口の左利きの学生の事後分布を見つけます。結果を要約します。文献によると、5-20%の人が左利きです。事前にこの情報を考慮し、新しい事後を計算します。

私が知っているベータ分布は、ここで使用する必要があります。まず、αβ値を1にして?事後の資料で見つけた方程式は

π(r|Y)r(Y+1)×(1r)(NY+1)

Y=2N=18

なぜそのrは方程式にあるのですか?(rは左利きの人々の割合を示します)。不明ですが、この方程式にはどのように当てはまりますか?私には計算にばかげr与えられたY、その使用r与える式でr。さて、サンプルとr=2/18の結果であった0,0019f私がそれから推測する必要がありますか?

期待値を与える式R知られて与えられたYN、より良い仕事をしてくれました0,15権利について鳴ります。方程式は、値はおよび割り当てられます。事前情報を考慮するために、とにどの値を指定する必要がありますか?E(r|X,N,α,β)=(α+X)/(α+β+N)1αβαβ

いくつかのヒントをいただければ幸いです。事前分布と事後分布に関する一般的な講義も害になりません(私はそれらが何であるかを曖昧に理解していますが、曖昧です)高度な数学はおそらく私の頭の上を飛ぶでしょう。


4
あなたは見てかかりましたこの質問をし、答えますか
デビッドロビンソン

7
左利きの学生の後方分布を見つける」というフレーズは意味がありません。ランダム変数には分布があり、「左利きの学生」はrvではありません。「左利きの学生の割合の事後分布を見つける 」ことを意図していると思います。そのような詳細を詳しく説明するのではなく、実際に何を話しているのかを明確にすることが重要です。
Glen_b

2
実際、あなたの質問を読んで、あなたの問題は単にベイズ統計ではなく、単に確率分布を理解しているように思えます。それはだ常にケース分布関数(またはあなたがそこに持っているように確率関数)の引数は不明(確率変数)の関数です。それが完全に彼らのポイントです。
Glen_b

コメントは詳細なディスカッション用ではありません。この会話はチャットに移動さました
GUNG

回答:


234

まず、共役事前分布とは何かを説明します。次に、特定の例を使用してベイジアン分析について説明します。ベイジアン統計には、次の手順が含まれます。

  1. パラメーターに関する主観的な信念を組み込んだ事前分布を定義します(この例では、関心のあるパラメーターは左利きの割合です)。事前情報は、「情報量の少ない」または「情報量の多い」ことができます(ただし、情報のない事前情報はありません。こちらの説明を参照してください)。
  2. データを集めます。
  3. ベイズの定理を使用して事前分布をデータで更新し、事後分布を取得します。事後分布は、データを見た後のパラメーターに関する更新された信念を表す確率分布です。
  4. 事後分布を分析し、それを要約します(平均、中央値、SD、分位数、...)。

すべてのベイジアン統計の基礎はベイズの定理です。

posteriorprior×likelihood

あなたの場合、尤度は二項です。事前分布と事後分布が同じファミリーに属する場合、事前分布と事後分布は共役分布と呼ばれます。事後分布もベータ分布なので、ベータ分布は事前共役です。ベータ分布は、二項尤度の共役族であると言います。共役解析は便利ですが、実際の問題ではめったに起こりません。ほとんどの場合、事後分布はMCMCを介して数値的に検出する必要があります(Stan、WinBUGS、OpenBUGS、JAGS、PyMCまたはその他のプログラムを使用)。

事前確率分布が1に統合されない場合、それは不適切な事前分布と呼ばれ、1に統合される場合、適切な事前分布と呼ばれます。ほとんどの場合、不適切な事前分布はベイジアン分析にとって大きな問題にはなりません。ただし、事後分布適切でなければなりません。つまり、事後分布 1に統合する必要があります。

これらの経験則は、ベイジアン解析手順の性質に直接従っています。

  • 事前情報が有益でない場合、事後はデータによって非常に決定されます(事後はデータ駆動型です)
  • 事前情報が有益な場合、事後情報は事前情報とデータの混合です
  • 情報量が多いほど、信念を「変更」するために必要なデータが多くなります。つまり、事後は前の情報によって大きく左右されるためです。
  • 大量のデータがある場合、データが事後分布を支配します(前のものを圧倒します)

この投稿では、ベータ分布の可能性のある「情報」および「情報なし」事前分布の優れた概要を見つけることができます。

前のベータがであるとします。ここで、は左利きの割合です。事前パラメーターおよびを指定するには、ベータ分布の平均と分散を知ることが役立ちます(たとえば、事前に特定の平均と分散を持たせる場合)。平均はです。したがって、場合、平均はです。ベータ分布の分散はです。さて、便利なのはと考えることができることですBeta(πLH|α,β)πLHαβπ¯LH=α/(α+β)α=β0.5αβ(α+β)2(α+β+1)αβ以前に観測された(擬似)データ、つまり、サイズ(擬似)サンプルからの左利きおよび右。分布が均一である(すべての値等しく可能性あり)とうち2人を観察したのと同じですそのうちの1つは左利きで、もう1つは右利きです。αβneq=α+βBeta(πLH|α=1,β=1)πLH

事後ベータ分布は、単にここで、はサンプルのサイズで、はサンプルの左利きの数です。事後平均ことである。したがって、事後ベータ分布のパラメーターを見つけるには、の左利きを、右利きを追加するだけです。事後分散はBeta(z+α,Nz+β)NzπLH(z+α)/(N+α+β)zαNzβ(z+α)(Nz+β)(N+α+β)2(N+α+β+1)。情報量の多い事前分布は、事後分布の分散が小さくなることにも注意してください(下のグラフは、この点をうまく示しています)。

あなたの場合、とあり、あなたの事前分布は情報量の少ないユニフォームなので、です。したがって、事後分布はです。事後平均はです。これは、事前確率、データの尤度、および事後確率を示すグラフですz=2N=18α=β=1Beta(3,17)π¯LH=3/(3+17)=0.15

事前、データの尤度、および一様な事前の事後分布

以前の分布は情報に乏しいため、事後分布は完全にデータに基づいていることがわかります。また、事後分布の最高密度間隔(HDI)もプロットされています。後部の分布を2D盆地に置き、分布の95%が喫水線より上になるまで水を満たし始めると想像してください。ウォーターラインが事後分布と交差するポイントは、95%-HDIを構成します。HDI内のすべてのポイントは、HDIの外部のどのポイントよりも高い確率を持っています。また、HDIには常に事後分布のピーク(つまりモード)が含まれます。HDIは、後部の各尾から2.5%が除外されている、等しい尾の95%信頼区間とは異なります(こちらを参照)。

2番目のタスクでは、人口の5〜20%が左利きであるという情報を組み込むように求められます。それにはいくつかの方法があります。最も簡単な方法は、前のベータ分布の平均がと平均であるあると言うことです。しかし、前のベータ分布のおよびを選択する方法は?最初に、同等のサンプルサイズ擬似サンプルから、事前分布の平均をしたい。より一般的には、事前に擬似サンプルサイズ平均が必要な場合、対応する0.1250.050.2αβ0.125neqmneqαおよび値は、およびです。あとは、擬似サンプルサイズを選択するだけですこれにより、以前の情報に対する自信度が決まります。以前の情報について非常に確信しており、設定したとしましょう。事前分布のパラメーターは、および 1-0.125です。事後分布はであり、平均は約これは、前の平均と実質的に同じです。βα=mneqβ=(1m)neqneqneq=1000α=0.1251000=125β=(10.125)1000=875Beta(127,891)0.1250.125。事前情報が事後を支配しています(次のグラフを参照)。

事前情報、データの尤度および強力な有益な事前情報を持つ事後分布

以前の情報について確信が持てない場合は、疑似サンプルのをたとえばに設定すると、以前のベータ分布に対しておよびられます。事後分布はであり、平均は約です。データが事前平均を圧倒するため、事後平均はデータの平均()に近くなりました。状況を示すグラフは次のとおりです。neq10α=1.25β=8.75Beta(3.25,24.75)0.1160.111

事前、データの尤度、および3の擬似サンプルサイズに対応するベータ事前分布を持つ事後分布

事前情報を組み込むより高度な方法は、事前ベータ分布の分位が約で、分位が約です。これは、人口の左利きの割合が5%から20%の間であることを95%確信しているということと同じです。Rパッケージの関数は、そのような変位値に対応するベータ分布の対応するおよび値を計算します。コードは0.0250.050.9750.2beta.selectLearnBayesαβ

library(LearnBayes)

quantile1=list(p=.025, x=0.05)     # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2)      # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)

[1]  7.61 59.13

偶然に持つベータ分布と思われると所望の特性を持っています。以前の平均はで、データの平均()に近い値です。繰り返しますが、この事前分布には、約同等のサンプルサイズの擬似サンプルの情報が組み込まれています。事後分布はであり、平均はこれは、非常に有益なを使用した以前の分析の平均と同等です。対応するグラフは次のとおりです。α=7.61β=59.137.61/(7.61+59.13)0.1140.111neq7.61+59.1366.74Beta(9.61,75.13)0.113Beta(125,875)

事前分布、データの尤度、および0.05と0.975の変位値が0.05と0.2の事前分布を持つ事後分布

ベイジアンの推論と単純な分析の短いが、私見の良い概要については、このリファレンスも参照してください。共役解析、特に二項データの詳細な紹介は、ここにあります。ベイジアン思考への一般的な紹介はここで見つけることができます。ベイジアン統計の側面に関するその他のスライドはこちらです。


1
ここでベータ配布を選択する理由は何ですか?
Metariat

1
@Metallica主な理由は、ベータが二項分布の共役であることです。これは、ベータを事前として選択した場合、事後もベータになります。さらなる理由は、ベータ版が0から1の間であり、非常に柔軟であることです。たとえば、ユニフォームが含まれます。ただし、でサポートされている適切なディストリビューションは、以前と同様に使用できます。後部の計算がより困難なだけです。(0,1)
COOLSerdash 16

「Intro to Bayesian thinking」のドキュメントがまだありますか?Dropboxリンクは無効です。
bs7280

@ bs7280リンクを更新しました。再び動作するはずです。
COOLSerdash

1
@meduz厳密に言えば、事前の「情報価値のない」実際の情報はありません。この議論に関するティムの優れた答えを紹介したいと思います。
COOLSerdash

8

ベータ分布 = 1、 = 1は、均一な分布と同じです。したがって、実際には均一です。分布のパラメーターに関する情報を検索しようとしています(この場合、グループ内の左利きの人々の割合)。ベイズの公式の状態:αβ

P(r|Y1,...,n) =P(Y1,...,n|r)P(r)P(Y1,...,n|θ)P(r)

あなたが指摘したことは次のことに比例します:

α Y 1 N | R * P R P(r|Y1,...,n) (Y1,...,n|r)P(r)

したがって、基本的には、グループ内の左利きの割合の事前の信念から始め(P(r)、均一な距離を使用しています)、次に、事前に通知するために収集するデータを考慮します(二項式この場合、右利きまたは左利きのどちらかなので、)。二項分布には事前にベータ共役があるため、事後分布P R | Y 1 、NαP(Y1,...,n|r)P(r|Y1,...n)、データを考慮した後のパラメーターの分布は、以前と同じファミリーにあります。ここのrは、最終的には不明です。(そして率直に言って、データを収集する前ではありませんでした。社会における左利きの割合についてかなり良い考えを持っています。)事前分布(rの仮定)とデータを収集しました。そして2つを一緒に置きます。事後は、データを考慮した後の左利きの分布の新しい仮定です。そのため、データの尤度を取得し、それにユニフォームを掛けます。ベータ分布の期待値(ポスター)は、です。そのため、開始時に、 = 1および仮定 αβ1αα+βαβ= 1は、世界の左利きの割合がでした。これで、18個のうち2個の左利きのデータを収集できました。事後を計算しました。(まだベータ版)と値が異なるため、左利き対右利きの割合の考え方が変わります。どう変わった?12βαβ


1

質問の最初の部分では、「r」の適切な事前分布を定義するように求められます。二項データを手に入れたら、ベータ分布を選択するのが賢明でしょう。後部はベータになるからです。均一分布はベータの特別なケースであり、「r」の前に均一分布を選択して、「r」のすべての可能な値が等しくなるようにすることができます。

2番目の部分では、事前配布「r」に関する情報を提供しました。

これを手にすると、@ COOLSerdashの答えが適切な指示を与えてくれます。

この質問とCOOLSerdashを投稿していただき、ありがとうございます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.