コイン投げのベータ分布


11

クルシュケのベイジアンの本は、コインを弾くためのベータ分布の使用に関して、

たとえば、コインに表側と裏側があるという知識以外に事前知識がない場合、これは以前にa = 1とb = 1に対応する1つの頭と1つの尾を観察したことと同じです。

なぜ1つの頭と1つの尾を見たことに等しい情報がないのですか?0頭と0尾は私にとってより自然に見えます。


8
(+1)引用は、「観察する」という2つの非常に異なる感覚を同一視するよう読者に促すため、誤解を招くものです。ここで使用する意味は、コイン自体を検査したという意味です。つまり、実験のセットアップを理解しているということです。しかし、これが意味という結論は、1つの結果が表と裏であった間に実験を2回実行したという異なる意味での「観察」の再解釈に依存します。この種の論理的な巧妙な手口は、知的警備です。ベイジアン手法が恣意的で論理的に滑りやすいように見えるだけですが、これは残念です。a=b=1
whuber

引用は間違っています:ベータ(1、1)の事前の正当化はありません。
Neil G

これは、単一の観測に相当する情報であると簡単に主張できます。
Glen_b-2016

4
本のその一節の意図された目的を覚えておいてください。これは、最初に適用されたユーザーにとって単純で直感的な正当化であるはずであり、明らかに数学的な議論ではなく、beta(1,1)が以前の最良または唯一の漠然とした主張ではありません。本の他の部分では、中程度の量のデータがある場合、漠然とした事前分布のわずかな変動が事後に実質的な違いを生じさせないことを示すために私は苦労します。(もちろん、以前のものに非常に敏感なベイズ係数を除きます!)他の書物では、以前にハルデンについて説明しました。
John K. Kruschke 16

回答:


17

OPへのコメントで@whuberが指摘しているように、引用は「論理的な手先」(素晴らしい表現!)です。コインに表と裏があることを見て、私たちが本当に言えるのは、「表」と「裏」の両方のイベントが不可能ではないということです。したがって、すべての確率質量を「ヘッド」または「テール」に配置する離散事前分布を破棄できます。しかし、これだけでは、以前の制服につながるわけではありません。質問ははるかに微妙です。まず、背景を少しまとめましょう。コイントスの独立かつ同一分布(条件付きで)が与えられた、コインの頭の確率のベイズ推定のためのベータ2項共役モデルを検討しています。nはθ P θ | X X Nθnθp(θ|x)トスで頭を観察する場合:xn

p(θ|x)=Beta(x+α,nx+β)

とは、 "前の数の頭"と "前の数の尾"(仮説)の役割を果たすと言うことができ、は有効なサンプルサイズとして解釈できます。以前の平均とサンプル平均加重平均として事後平均のよく知られた式を使用して、この解釈に到達することもできます。β α + β ααβα+β Xαα+βxn

見ると、我々は2つの配慮を行うことができます。p(θ|x)

  1. (最大の無知)に関する事前の知識がないため、直感的に、有効なサンプルサイズは「小さい」と予想されます。それが大きければ、以前の知識はかなり多くの知識を組み込むことになります。これを確認するもう1つの方法は、およびに関しておよびが「小さい」場合、事後確率は以前の確率にあまり依存しないことです。これは、 および。多くの知識を組み込んでいない事前情報は、いくつかのデータを考慮すると、すぐに無関係にならなければならないと私たちは予想します。θα+βαβxnxx+αxnx+βnx
  2. また、は以前の平均であり、の分布に関する事前の知識がない ため、と予想されます。これは対称性の引数です。これ以上よくわからない場合、分布が0または1に向かって歪んでいることがアプリオリに予想されることはありません。ベータ分布はμprior=αα+βθμprior=0.5

    f(θ|α,β)=Γ(α+β)Γ(α)+Γ(β)θα1(1θ)β1

    この式は、場合 、周りでのみ対称です。θ=0.5α=β

これらの2つの理由により、以前に使用したもの(ベータファミリに属します-共役モデルを思い出してください!)を使用することを選択した場合、およびは「小さい」と直感的に期待します。Beta-Binomialモデルで一般的に使用されている3つの非情報事前分布はすべてこれらの特性を共有していますが、それ以外はかなり異なります。そしてこれは明白です:事前知識がない、または「最大無知」は科学的定義ではないので、どのような事前知識が「最大無知」を表現するか、すなわち、何の情報がない事前情報は、実際に「最大無知」として何を意味するかによって異なります無知"。α=β=cc

  1. 値はすべて等しい可能性があるという事前分布を選択できます。再び、対称性の議論。これは、対応します。θα=β=1

    f(θ|1,1)=Γ(2)2Γ(1)θ0(1θ)0=1

    以下のために、すなわち、均一な前Kruschkeで使用されます。より正式には、ベータ分布の微分エントロピーの式を書き出すと、ときに最大化されることがわかります 。現在、エントロピーは、分布によって運ばれる「情報量」の尺度として解釈されることがよくあります。エントロピーが高いほど、情報が少なくなります。したがって、この最大エントロピー原理を使用して、Betaファミリ内で、情報が少ない(最大の無知)事前分布はこの均一な事前分布であると言うことができます。θ[0,1]α=β=1

  2. OPが使用する別の視点を選択することもできます。つまり、頭も尻尾も見なかったことに対応する情報はありません。

    α=β=0π(θ)θ1(1θ)1

    この方法で取得した事前分布は、ハルデン事前分布と呼ばれます。関数には少し問題がありますの積分は無限です。つまり、正規化定数に関係なく、適切なpdfに変換されます。実際、ホールデンは、従来適切であるPMFに確率0.5を置き、で、0.5、および他のすべての値について0確率。ただし、うんざりさせないでください-連続パラメーター場合、適切な確率密度関数に対応しない事前分布は、不適切な事前分布と呼ばれますθ1(1θ)1I=[0,1]θ=0θ=1θθ。前に述べたように、ベイジアン推論にとって重要なことは事後分布だけなので、事後分布が適切である限り、不適切な事前分布は許容されます。以前のHaldaneの場合、サンプルに少なくとも1つの成功と1つの失敗が含まれている場合、事後確率密度関数が適切であることを証明できます。したがって、少なくとも1つの頭と1つの尾を観察する場合にのみ、前にHaldaneを使用できます。

    Haldaneの事前分布が非情報的であると見なすことができる別の意味があります。事後分布の平均は現在 、つまり、コインフリップ問題の2項モデルの MLEの頻度推定値である、ヘッドのサンプル頻度です 。また、信頼できる区間は、Wald信頼区間に対応しています。常連主義者の方法は事前情報を指定しないので、ハルデン事前情報は有益ではない、または事前情報が0に対応していると言えます。これは、頻度情報が行う「同じ」推論につながるためです。 θθα+xα+β+n=xnθθ

  3. 最後に、問題のパラメーター化に依存しない事前分布、つまり、ベータ2項式モデルに対応するジェフリーズ事前分布を使用できます。

    α=β=12π(θ)θ12(1θ)12

    したがって、有効なサンプルサイズは1です。Jeffreys事前分布には、パラメーター空間の再パラメーター化の下で不変であるという利点があります。たとえば、一様事前分布は、イベント「頭」の確率であるすべての値に等しい確率を割り当てます。ただし、このモデルをではなく、イベント "head" のlog-oddsでパラメーター化することもできます。ログオッドの観点から「最大の無知」を表す、つまり、イベント「ヘッド」のすべての可能なログオッドは確率が等しいと言っている事前分布は何ですか。これはハルデン以前のものであり、この(やや不可解な)回答に示されていますλ = L O G θθθλ=log(θ1θ)θ。代わりに、ジェフリーズはメトリックのすべての変更の下で不変です。Jeffreysは、このプロパティを持たない事前分布には、問題のパラメータ化に使用したメトリックに関する情報が含まれているため、何らかの意味で有益であると述べました。彼の事前はしません。

要約すると、ベータ2項モデルでは、情報のない事前の明確な選択肢が1つだけではありません。何を選択するかは、事前知識ゼロとしての意味、および分析の目的によって異なります。


0

それは明らかに間違っています。1つの頭と1つの尾を観察することは、(全頭コインを持つことは不可能)および(全尾コインを持つことは不可能)を意味します。均一な分布はこれと一致していません。一貫しているのはBeta(2,2)です。ベイジアン解からで事前にラプラス(つまり均一)を使用するコインフリップ問題への事後確率は、です。、P θ = 1 = 0 θ P θ = BのE TH + 1 N - H + 1 p(θ=0)=0p(θ=1)=0θp(θ)=Beta(h+1,(Nh)+1)


私はあなたの答えを理解するのに苦労しています。
Michael R. Chernick 2017

「一様分布はこれと一致しない」というあなたの結論は正しくありません。密度確率( " "の意味)を混同します。(連続)均一分布は、やなどの原子イベントにゼロ確率を割り当てますθ = 0 θ = 1pθ=0θ=1
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.