ベイズの定理の分母を分解するのはなぜですか?


23

(私は統計の初心者です。私は数学者でプログラマーであり、単純なベイジアンスパムフィルタのようなものを構築しようとしています。)

多くの場所で、人々はベイズの定理の方程式の分母を分解する傾向があることに気付きました。したがって、これの代わりに:

PA|BPBPA

これが提示されます:

PA|BPBPA|BPB+PA|¬BP¬B

このウィキペディアの記事と、Tim Petersによるこの洞察に満ちた投稿で、この規則が使用されていることがわかります。

私はこれに困惑しています。分母がなぜこのように分解されるのですか?それは物事をどのように助けますか?スパムフィルターの場合、計算するのにそれほど複雑なのは何ですか?PAThe probability that the word "cheese" appears in an email, regardless of whether it's spam or not


答えはドメイン固有(つまり、スパムフィルターに固有)であると思われます。成分P(A | B)などを計算できる場合は、前述のように単純なP(A)を計算できるはずです。または、その読者はP(A | B)の点でP(A)とその分解との間の関係を理解するので、おそらく答えは教育に関連しているなど、P(B)

1
強い答えはありませんが、明示的な分母に与えられたものを単純に差し込めたテストで愚かな間違いを犯したと言えますが、P(A)を知っていて間違っていたと思います。
ウェイン

回答:


16

あなたの質問に対する簡単な答えは、「ほとんどの場合、P(チーズ)が何であるかを知らず、計算するのが(比較的)難しい場合が多い」です。

ベイズの規則/定理が通常あなたが書いた方法で述べられている理由は、ベイジアン問題では、膝に座って-事前分布(上記のP(B))と尤度(P(A | B)、P(A | notB)上記)および事後(P(B | A))を計算するのは比較的単純な乗算です。要約された形式でP(A)を再表現する問題に行くのは、他の場所で費やすことができる努力です。

メールの文脈ではそれほど複雑に見えないかもしれませんが、あなたが正しく指摘したように、それはただのP(cheese)でしょ?問題は、より複雑なオンザバトルフィールドのベイジアン問題では、分母が見苦しい積分であり、閉形式の解を持っている場合も持っていない場合もあるということです。実際、積分を近似するためだけに洗練されたモンテカルロ法が必要になる場合があり、数字をかき回すことは後部の本当の痛みになる可能性があります。

しかし、もっと重要なことは、通常、P(チーズ)が何であるかさえ気にしません。電子メールがスパムであるかどうかについての私たちの信念を磨こうとしていることを心に留めておいてください。とにかく、パラメータに依存しない正規化定数です。合計の行為は、パラメーターについて持っていた情報を洗い流します。定数は計算するのに迷惑であり、電子メールのスパムかどうかについての私たちの信念をゼロにすることになると最終的には無関係です。計算する必要がある場合があります。その場合、最も簡単な方法は、すでに持っている情報、つまり事前確率と尤度を使用することです。


誰かが「閉じた形の解決策を持っているか持っていないかもしれない見苦しい統合」の例を提供できますか?
PaulG

8

合計確率ルールを使用する理由の1つは、その式でコンポーネントの確率を処理することが多く、値を単純に差し込むことで限界確率を見つけるのが簡単だからです。この実例については、Wikipediaの次の例を参照してください。

別の理由は、その表現を操作することにより、ベイズの規則の同等の形式を認識することです。例えば:

PB|A=PA|BPBPA|BPB+PA|¬BP¬B

RHSを分子で除算します。

PB|A=11+PA|¬BPA|BP¬BPB

これは、ベイズの規則と同等の優れた形式であり、元の式からこれを差し引くことでさらに便利になります。

P¬B|APB|A=PA|¬BPA|BP¬BPB

これは、オッズの観点から述べられたベイズのルールです。つまり、Bに対する事後オッズ= Bに対するベイズ因子とBに対する前のオッズを掛けたものです。モデルの尤度の比率。基になるデータ生成メカニズムについて不確かなことを考えると、データを観察し、信念を更新します。

これが役に立つかどうかはわかりませんが、うまくいけば困惑しません。明らかに、シナリオに最適な式を使用する必要があります。たぶん他の誰かがさらに良い理由でパイプすることができます。


さらに一歩進んでログを取ることができます。次に、対数事後比 = 対数前比 + 対数尤度比
確率論的

6

PA

PAPA|BBPA|BPA|¬BB¬BPA|B そして PA|¬B。合計確率を得るために、条件付けするイベントの発生の条件付き確率に重み付けする必要があります。つまり、PB そして P¬B。したがって、最終的な表現

PA=PA|BPB+PA|¬BP¬B
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.