ベイズの定理を使用して尤度を更新するための算術


8

これは、StackexchangeまたはMathoverflowでそれを見つけることができなかった理由である基本的な質問かもしれませんが、私が取り組んでいる問題のベイズ定理を使用して尤度を更新することに関連する算術に問題があります。

バックグラウンド:

先例がないか、ほとんどない将来の出来事に、可能性の予測を与えることを試みています。以前に知られている分布を使用して同様のパラメーター内で将来のイベントの可能性を与えるベイズに関するほとんどの文献やテキストとは異なり、私の状況は専門家の意見に基づいています。

例:

GMは彼らが新しい自動車を開発していると発表した、しかしそれがいつリリースされるかについては言わなかった。KIAのプロダクションマネージャーは、新しい車を同時にリリースできるように、いつリリースできるかを知る必要があります。

KIAは、新車をリリースするために次のコンポーネントが必要であることを知っています(1)エンジン、(2)トランスミッション、(3)ボディ、(4)ホイールとサスペンション。KIAの経験豊富なエンジニアは、このような新しいプロジェクトの場合、2年で完了することができると90%確信していると述べています。KIAはまた、GMが別のSUVで新しいトランスミッションを使用してテストを行い、95%の成功率で設計どおりに機能したことを発見しました。同じエンジニアは、このトランスミッションテストが与えられれば、70%の時間内に自動車を完成させることができると述べました。

私のやり方では、この時点で、KIAは以下のように初期サンプルを使用してベイジアン計算を開始できます。

   A = GM will release the new car in two years
   B1 = GM will successfully test a new transmission
   P(A) = Prior Probability that GM will release the new car in two years
   P(B1) = Probability that GM will successfully test a new transmission
   P(B1|A) = Likelihood that given a successful transmission test, the car will be released within 2 years

次のように値を割り当てる

   P(A) = .9
   P(B1) = .95
   P(B1|A) = .7

P(A|B1)=P(A)P(B1|A)P(A)P(B1|A)+P(A¯)P(B1|A¯)

.9545=.9.7(.9.7)+(.1.3)

KIA統計部門がこのアップデートを出した直後に、GMは彼らが彼らの新しいエンジンをテストしたことを発表しました、そしてそれはすべてのテストにわたって98%の成功率を持っていました。KIAのエンジニアは、通常、エンジンテストが成功した場合、80%の確率で車が完成する可能性がありますが、エンジンとエンジンの両方に与えられた全体的な完成時間の可能性については知らなかったと述べました透過テストでした。

注目すべき2番目の証拠の値は、この場合は独立していますが、すべての場合に当てはまるわけではありません。たとえば、停止後にボディを継続する必要があります。

   P(B2) = .98
   P(B2|A) = .8

だから、ここで私は問題を抱えています:事前分布が一定のままであると仮定して、事後P(A | B1)をP(A | B1、B2)の計算に算術的に統合します。すでに述べたように、{B1...Bn}は独立しており、その他は条件付きです。

私は、3つのイベントベイ拡張を説明するウィキペディアエントリを見てきました。

P(A|B1,B2)=P(B2|A,B1)P(B1|A)P(A)P(B2|B1)P(B1)

しかし、4番目と5番目の拡張についてはどうでしょうか。

私が持っている本やオンラインリソースのほとんどは、私が区別できる方法で事前情報を更新する手順を示していません。学部の微積分の日から遠く離れすぎて解釈できないかもしれませんが、私が恐れているのは、単純な計算のように見えるものを実行するために、集合論と大学院レベルの数学でかなりの経験が必要だということです。この交換は、私が見つけることができた最も近いものであり、それを通り抜けることはできません。1週間も検索していないのに、更新の仕組みに関する基本的なチュートリアルが見つかりましたベイズの定理(ベイズの定理とは何か、それがどのように機能するかについては気にしないでください-最初の実装を超えてもっとたくさんあります)は、簡単な計算ではないと思います。大学院レベルの数学なしでこの更新を行う簡単な方法はありますか?

注:「更新の問題」WRTベイズの固有の難しさに関連する皮肉を知っています。ユドコフスキーはしばらくの間、この問題に取り組んできました。おそらく間違って、それを扱っている人たちははるかに複雑な反復を参照していると想定していましたが、その問題が発生している可能性があることは承知しています。

回答:


10

まず、「4番目と5番目の拡張機能」を使用したイベントの更新についての質問にお答えします。ご想像のとおり、演算は非常に単純です。

まず、ベイズの定理が条件付き確率の定義からどのように導出されるかを思い出してください。

ここに画像の説明を入力してください

分子のAを条件付けることで、より馴染みのある形式に到達できます。

ここに画像の説明を入力してください

ここで、Bだけではなく、2つ以上のイベントB_1、B_2があるかどうかを検討します。そのために、(wikipediaから)である確率連鎖規則を使用して、引用する3つのイベントベイズ拡張を導出できます。

ここに画像の説明を入力してください

B_1とB_2については、条件付き確率の定義から始めます

ここに画像の説明を入力してください

そして、分子と分母の両方で連鎖規則を使用します。

ここに画像の説明を入力してください

そして、ちょうどそのように、私たちはあなたがウィキペディアから引用した方程式を再導出しました。別のイベントを追加してみましょう:

ここに画像の説明を入力してください

ここに画像の説明を入力してください

5番目のイベントの追加も同様に簡単です(読者のための練習)。しかし、きっとパターンに気づくでしょう。つまり、3つのイベントバージョンへの回答が4つのイベントバージョンへの回答内に保持されているため、これを次のように書き換えることができます。

ここに画像の説明を入力してください

ここに画像の説明を入力してください

またはより一般的には、n番目の証拠の後の事後を更新するためのルール:

ここに画像の説明を入力してください

その部分はあなたが興味を持っているものです。さて、あなたが話しているのは、これは計算が難しいかもしれないということです-算術の困難さのためではなく、B内の依存関係のためです。各Bが独立して配布されていると言うと、更新は非常に簡単になります。

ここに画像の説明を入力してください

(実際、これはベイズの定理の単純な適用です!)その部分の複雑さは、以前の証拠のどの部分が新しい証拠の部分に依存しているかによって異なります。変数と証拠の断片間の条件依存の重要性は、ベイジアンネットワークが開発された理由です(実際、上記はベイジアンネットワークの因数分解を説明しています)。

それでは、あなたの例について話しましょう。まず、問題という言葉の解釈には問題があります。70%と80%の解釈はそれぞれ、

P(B1|A) = .7
P(B2|A) = .8

しかし、(定義によると)Aは車が時間どおりに完成することを意味し、B_1はGMがトランスミッションを正常にテストすることを意味し、B_2はエンジンテストが成功したことを意味します。

P(A|B1) = .7
P(A|B2) = .8

しかし、今、問題という言葉は実際には意味がありません。3つの問題は次のとおりです。

1)彼らはあなたが探しているものを効果的にあなたに与えています:「このトランスミッションテストでは、車はその時間枠の70%の時間内に完了することができます」と言ってから、「車が完了する確率はどれくらいか」と尋ねます。その時"。

2)証拠は、常識が期待するであろう反対の方向にあなたを押し込みます。伝送について知る前の確率は90%でしたが、テストが成功したことを知るにはどうすれば70%に下げることができますか?

3)「95%の成功率」とテストが成功した95%の確率には違いがあります。成功率は多くのことを意味する可能性があり(たとえば、パーツが壊れない割合など)、パーツの品質に関する工学的な質問であり、「テストが成功したかどうか」の主観的な評価ではありません。説明のための例として、私たちは、飛行中に少なくとも99.999%の確率で作業する必要があるロケット船の重要な部分について話していたと想像してください。「ピースが20%の確率で壊れる」と言っても、80%の確率でテストが成功し、80%の確率で来週ロケットを打ち上げることができます。おそらく、この部品の開発と修正には20年かかるでしょう。与えられた情報に基づいて知る方法はありません

これらの理由により、この問題の言葉遣いは非常に不十分です。ただし、上記で示したように、複数のイベントに基づいて更新する場合の算術演算は非常に簡単です。その意味で、お答えできれば幸いです。

ETA:あなたのコメントに基づいて、最初から質問をやり直す必要があると思います。確かに、95%/ 98%の「成功率」という考えを取り除く必要があります。これは、この文脈では工学的な問題であり、ベイズ統計の問題ではありません。第2に、「この部分が機能し、車が2年以内に準備できることを考えると、70%の確信がある」という推定値は事後確率であり、証拠ではありません。すでに持っているものを更新するためにそれを使用することはできません。

あなたが説明している状況では、締め切りまでに4つの部分すべてが機能する必要があります。したがって、最も賢いことは、「各部品が2年間で動作する確率はどれくらいか」ということです。次に、それらの確率の積(独立性を前提とする)を取得すると、2年間ですべてが機能する確率が得られます。

一歩下がると、実際には複数の主観的予測を1つに統合しようとしているように見えます。その場合、私の推奨はあなたのエンジニア解雇することです。どうして?彼らは、彼らが2年以内に準備ができることを90%確信していると伝えているが、その後、トランスミッションのテストが成功したことを知った後、彼らの推定値を70%にダウングレードする。それが私たちが取り組んでいる才能である場合、ベイジアン統計は私たちを助けにはなりません:-)

もっと真剣に-もしあなたが問題のタイプについてもっと具体的だったら(おそらくP(A | B1)とP(A | B2)を組み合わせるようなものです)、もう少しアドバイスを与えることができます。


おかげで、私が取り組んでいる難易度を明確にすることができます。価値があるものについては、問題を設計したので、そこに固有の問題があるかもしれません。問題の言い回しに関して:各P(B_n | A)は事前確率から独立していることを意図しています。この例を使用すると、GMが特定のコンポーネントを完了した場合、エンジニアは、他のコンポーネントに関係なく、時間通りに車が完成する可能性があります。
Andrew

私があなたが何を意味するのかよくわかりません。あなたが与える単語の問題の問題は、難易度ではなく、言い回しです。これは元の問題ですか、それとも課題ですか?
David Robinson

許してください-私はコメントのシフトエンターの段落区切りに調整しています。私が編集で述べたように、それはあなた自身の例であり、あなたが述べたように言葉遣いが不十分なだけかもしれません。私が使用するセットは通常、データソースに関して互いに素であるので、同じセットまたは同じグループからの他のデータに必ずしも依存しない新しいデータが、仮説にどのように影響するかを頻繁に判断する必要があります。私が書いたとおりに書いた。上記の例では、エンジニアが各コンポーネントに個別に基づいて全体的に完了する可能性があると想像してください。
Andrew

編集を参照してください。各コンポーネントに個別に基づいて全体的な完了の見積もりがあることを確信していますか?それとも、テストが成功した場合、そのコンポーネントの完了の見積もりはありますか?
David Robinson

あなたが言ったように、私はP(A | B1)をP(A | B2)、P(A | B3)... P(A | Bn)で更新しようとしているようです。ご希望があれば、このディスカッションを電子メールでコメントから削除できます。AndrewKemendo@hotmail.com
Andrew

0

この結果を拡張する方法はたくさんあります。一般的な形は

P(A|B,C,D...)=P(A,B,C,D...)P(B,C,D,...)
分子と分母の両方を書く方法はたくさんあります。あなたの公式は2つの例を与えます(仮定するとB2 そして C同じものです)。もちろん、与えられた問題について、実際に知っている量の観点からRHSを書くことによってLHSを公式化する必要があります。あなたの特定の問題に対してそれができるかどうかは、おそらくこのサイトで、より具体的な質問に値するでしょう。

変数(A,B,C,D)などは連続的であり、事後の計算は実際にほとんどの問題ではるかに複雑になり、大学院レベルの数学/統計手法が必要です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.