クルシュケのベイジアンの本は、コインを弾くためのベータ分布の使用に関して、
たとえば、コインに表側と裏側があるという知識以外に事前知識がない場合、これは以前にa = 1とb = 1に対応する1つの頭と1つの尾を観察したことと同じです。
なぜ1つの頭と1つの尾を見たことに等しい情報がないのですか?0頭と0尾は私にとってより自然に見えます。
クルシュケのベイジアンの本は、コインを弾くためのベータ分布の使用に関して、
たとえば、コインに表側と裏側があるという知識以外に事前知識がない場合、これは以前にa = 1とb = 1に対応する1つの頭と1つの尾を観察したことと同じです。
なぜ1つの頭と1つの尾を見たことに等しい情報がないのですか?0頭と0尾は私にとってより自然に見えます。
回答:
OPへのコメントで@whuberが指摘しているように、引用は「論理的な手先」(素晴らしい表現!)です。コインに表と裏があることを見て、私たちが本当に言えるのは、「表」と「裏」の両方のイベントが不可能ではないということです。したがって、すべての確率質量を「ヘッド」または「テール」に配置する離散事前分布を破棄できます。しかし、これだけでは、以前の制服につながるわけではありません。質問ははるかに微妙です。まず、背景を少しまとめましょう。コイントスの独立かつ同一分布(条件付きで)が与えられた、コインの頭の確率のベイズ推定のためのベータ2項共役モデルを検討しています。nはθ P (θ | X )X Nトスで頭を観察する場合:
とは、 "前の数の頭"と "前の数の尾"(仮説)の役割を果たすと言うことができ、は有効なサンプルサイズとして解釈できます。以前の平均とサンプル平均加重平均として事後平均のよく知られた式を使用して、この解釈に到達することもできます。β α + β α X
見ると、我々は2つの配慮を行うことができます。
また、は以前の平均であり、の分布に関する事前の知識がない ため、と予想されます。これは対称性の引数です。これ以上よくわからない場合、分布が0または1に向かって歪んでいることがアプリオリに予想されることはありません。ベータ分布は
この式は、場合 、周りでのみ対称です。
これらの2つの理由により、以前に使用したもの(ベータファミリに属します-共役モデルを思い出してください!)を使用することを選択した場合、およびは「小さい」と直感的に期待します。Beta-Binomialモデルで一般的に使用されている3つの非情報事前分布はすべてこれらの特性を共有していますが、それ以外はかなり異なります。そしてこれは明白です:事前知識がない、または「最大無知」は科学的定義ではないので、どのような事前知識が「最大無知」を表現するか、すなわち、何の情報がない事前情報は、実際に「最大無知」として何を意味するかによって異なります無知"。
値はすべて等しい可能性があるという事前分布を選択できます。再び、対称性の議論。これは、対応します。
以下のために、すなわち、均一な前Kruschkeで使用されます。より正式には、ベータ分布の微分エントロピーの式を書き出すと、ときに最大化されることがわかります 。現在、エントロピーは、分布によって運ばれる「情報量」の尺度として解釈されることがよくあります。エントロピーが高いほど、情報が少なくなります。したがって、この最大エントロピー原理を使用して、Betaファミリ内で、情報が少ない(最大の無知)事前分布はこの均一な事前分布であると言うことができます。
OPが使用する別の視点を選択することもできます。つまり、頭も尻尾も見なかったことに対応する情報はありません。
この方法で取得した事前分布は、ハルデン事前分布と呼ばれます。関数には少し問題がありますの積分は無限です。つまり、正規化定数に関係なく、適切なpdfに変換されます。実際、ホールデンは、従来適切であるPMFに確率0.5を置き、で、0.5、および他のすべての値について0確率。ただし、うんざりさせないでください-連続パラメーター場合、適切な確率密度関数に対応しない事前分布は、不適切な事前分布と呼ばれます。前に述べたように、ベイジアン推論にとって重要なことは事後分布だけなので、事後分布が適切である限り、不適切な事前分布は許容されます。以前のHaldaneの場合、サンプルに少なくとも1つの成功と1つの失敗が含まれている場合、事後確率密度関数が適切であることを証明できます。したがって、少なくとも1つの頭と1つの尾を観察する場合にのみ、前にHaldaneを使用できます。
Haldaneの事前分布が非情報的であると見なすことができる別の意味があります。事後分布の平均は現在 、つまり、コインフリップ問題の2項モデルの MLEの頻度推定値である、ヘッドのサンプル頻度です 。また、信頼できる区間は、Wald信頼区間に対応しています。常連主義者の方法は事前情報を指定しないので、ハルデン事前情報は有益ではない、または事前情報が0に対応していると言えます。これは、頻度情報が行う「同じ」推論につながるためです。 θθ
最後に、問題のパラメーター化に依存しない事前分布、つまり、ベータ2項式モデルに対応するジェフリーズ事前分布を使用できます。
したがって、有効なサンプルサイズは1です。Jeffreys事前分布には、パラメーター空間の再パラメーター化の下で不変であるという利点があります。たとえば、一様事前分布は、イベント「頭」の確率であるすべての値に等しい確率を割り当てます。ただし、このモデルをではなく、イベント "head" のlog-oddsでパラメーター化することもできます。ログオッドの観点から「最大の無知」を表す、つまり、イベント「ヘッド」のすべての可能なログオッドは確率が等しいと言っている事前分布は何ですか。これはハルデン以前のものであり、この(やや不可解な)回答に示されていますλ = L O G (θθ。代わりに、ジェフリーズはメトリックのすべての変更の下で不変です。Jeffreysは、このプロパティを持たない事前分布には、問題のパラメータ化に使用したメトリックに関する情報が含まれているため、何らかの意味で有益であると述べました。彼の事前はしません。
要約すると、ベータ2項モデルでは、情報のない事前の明確な選択肢が1つだけではありません。何を選択するかは、事前知識ゼロとしての意味、および分析の目的によって異なります。
それは明らかに間違っています。1つの頭と1つの尾を観察することは、(全頭コインを持つことは不可能)および(全尾コインを持つことは不可能)を意味します。均一な分布はこれと一致していません。一貫しているのはBeta(2,2)です。ベイジアン解からで事前にラプラス(つまり均一)を使用するコインフリップ問題への事後確率は、です。、P (θ = 1 )= 0 θ P (θ )= BのE T(H + 1 、(N - H )+ 1 )