因果的ベイジアンネットワークにおけるd分離理論の理解


15

因果ベイジアンネットワークのd分離ロジックを理解しようとしています。アルゴリズムがどのように機能するかは知っていますが、アルゴリズムで述べられているように「情報の流れ」が機能する理由を正確には理解していません。

ここに画像の説明を入力してください

たとえば、上記のグラフでは、Xのみが与えられ、他の変数は観測されていないと考えてみましょう。次に、d分離の規則に従って、XからDへの情報の流れ:

  1. Xは、であるAに影響します。AはXを引き起こし、効果Xを知っている場合、これは原因Aの信念に影響を与えるため、これは問題ありません。情報フロー。P(A)P(A|X)

  2. XはBに影響を与えます。これはです。これは問題ありません。AはXに関する知識によって変更されているため、Aでの変更は、その原因であるBについての私たちの信念にも影響を与える可能性があります。P(B)P(B|X)

  3. XはCに影響を与えます。これはです。これは問題ありません。なぜなら、Bはその間接効果Xに関する知識によってバイアスされていることを知っているからです。CはBの直接的な効果であり、Xに関する知識の影響を受けます。P(C)P(C|X

さて、この時点まで、情報の流れは直感的な因果関係に従って発生するため、すべてが問題ありません。しかし、このスキームでは、いわゆる「V構造」や「コライダー」の特別な動作は得られません。d-Separation理論によれば、BとDは上のグラフのCの一般的な原因であり、Cまたはその子孫を観察しなかった場合、Xからのフロー情報はCでブロックされます。 、しかし私の質問はなぜですか?

Xから開始した上記の3つのステップから、CはXに関する知識の影響を受け、情報フローは原因と結果の関係に従って発生することがわかりました。d-分離理論では、Cは観測されないため、CからDに進むことはできないとされています。しかし、私はCが偏っていてDがCの原因であることを知っているので、理論は反対のことを言いながらDも影響を受けるべきだと思います。私の思考パターンには明らかに何かが欠けていますが、それが何であるかを見ることができません。

したがって、Cが観察されない場合、Cで情報の流れがブロックされる理由の説明が必要です。


Xのみが観察される場合、XからDには流れません。あなたはそれを絵のすぐ下に述べます。(さらに詳しく説明しますが)。
ziggystar

「V構造」があるCで情報フローがブロックされていることは既に知っています。私が知りたいのはその理由です。因果関係の観点から、Cを観察しないときにV構造が情報の流れをブロックする理由。
ウフクカンビチチ

回答:


6

原因から観察されていない効果まで、別の原因まで推論できないのは直感的ではありませんか?雨(B)とスプリンクラー(D)が湿った地面(C)の原因である場合、雨を見ると地面がおそらく湿っている可能性があり、地面からスプリンクラーがオンになっている必要があると主張し続けることができます濡れている?!もちろん違います。あなたは、雨のために地面が濡れていると主張しました。あなたは、他の原因を探すことはできません!

濡れた地面を観察すると、もちろん状況は変わります。これで、フランクが説明するように、ある原因から別の原因に推論できるようになります。


4

しばらくXを忘れて、B、C、Dのコライダーだけを考えてみましょう。v構造がBとDの間のパスをブロックできる理由は、一般に、2つの独立したランダム変数(BとD)同じ結果に影響する(C)、結果を知ることで、ランダム変数間の関係について結論を導き、情報の流れを可能にすることができます。

P(B|D)P(B)P(D|B)P(D))。したがって、芝生が濡れていることを知ると、パスのブロックが解除され、BとDが依存します。

これをよりよく理解するには、同じ状況を説明するBerksonのParadoxを見ると便利です。


1)D-分離について定義する前に、独立した原因が何であるかを理解するのが難しい。多くの著者は、直感的な因果関係を使用してD分離を定義しています。私は、この定理を受け入れられるように、さまざまな情報源から読んでいるものと直観に基づいて推論システムを構築しようとしています。「X以外の変数が観察されない場合、Xに関する知識は、Xの影響(すべての子孫)、Xの直接的または間接的な原因(祖先)、およびXの原因の他のすべての影響に影響を及ぼす可能性があります。」
ウフクカンビチチ

2)私はこの考えをそのように正当化します:A)Xはその直接的および間接的な影響に影響を及ぼします。B)Xは、直接および間接的な原因に影響を与える可能性があります。効果を観察すると、診断アプローチで原因に関する新しい情報を取得できるためです。X)に関する知識がこれらの原因に関する私たちの信念を変え、それがすべての効果に影響するため、C)Xはそのすべての直接的および間接的な原因の他の効果(それ自体を除く)に影響します。このような因果ベイジアンネットワークをこのパターンで解釈しようとします。そもそもこれは正しいですか?
ウフクカンビチチ

3)変数の独立性と依存性の振る舞いを理解するために、直感的な「情報フロー」パターンを形成しようとしているようです。このパターンでは、独立した原因が何であるかを見ることができず、これが私が立ち往生している場所です。明らかに私は何かを見逃しているか、この思考パターンにまったく間違っている可能性があります。
ウフクカンビチチ

私はBとDを「原因」と呼んでいたため、元の答えは少し誤解を招いたと思います(現在修正済み)。情報の流れは、原因となる介入ではなく、観察にリンクされた概念です。ご存知のように、1つを観察しても2番目の変数に関する情報が得られない場合、2つのランダム変数は独立しています。あなたの声明は観察と推論を​​混同しているようです。Xを観察すると、その親(ステートメントA)とその直接原因の推論を調整できますが、v構造がパスをブロックしている場合、上記の理由により、間接原因の推論を調整できません。
FrankD

1

さて、この時点まで、情報の流れは直感的な因果関係に従って発生するため、すべてが問題ありません。しかし、このスキームでは、いわゆる「V構造」や「コライダー」の特別な動作はしません。

ここで割れるのは、V構造です。架空の例を使用して、効果の観察のみに条件付けられた変数Sの確率と、同じ状況でSに依存しない別の変数Dの観察の影響との違いを説明したいと思います。

誰かがコースを取っているとしましょう、線形代数。彼が合格できるかどうかは、主に試験の難しさにかかっています。Pでコースを渡すイベントを示しましょう。それ以外の場合は1と0を渡します。また、試験の難易度はD、難易度は1、難易度は0です。また、ナンセンスがパフォーマンスや結果に影響を与える可能性があります。特異点が発生し、マシンで洗脳された後、試験を受ける。そのイベントをSで表し、その確率は0.0001です。それは不可能に思えますが、定義によりその可能性はゼロであってはなりません。

したがって、v構造フォームのグラフができました。

 D   S
  | |
 \| |/ 
   P  

P(¬P|S)=0.999999P(P|S)=0.000001

| d0   | d1      |      
|:-----|--------:|   
| 0.5  | 0.5     |  

| s0     | s1      |      
|:-------|--------:|   
| 0.9999 | 0.0001  |

| S     | D    | P(p0|S,D) | P(p1|S,D) |  
|:------|-----:|----------:|----------:|
|s0     | d0   |   0.20    |   0.80    |
|s0     | d1   |   0.90    |   0.10    |
|s1     | d0   |   0.999999|   0.000001|
|s1     | d1   |   0.999999|   0.000001| 

P(S|P)PS|PD

1)結果がわからない場合、コースが簡単であれば、特異点が発生する確率を計算できます。

P(S|¬D)=P(S,P|¬D)+P(S,¬P|¬D)=P(S=1,P=1,D=0)P(D=0)+P(S=1,P=0,D=0)P(D=0)=P(S=1)P(D=0|S=1)P(P=1|D=0,S=1)P(D=0)+P(S=1)P(D=0|S=1)P(P=0|D=0,S=1)P(D=0)=P(S=1)P(D=0|S=1)P(D=0)=P(S=1)P(D=0)P(D=0)=P(S=1)=0.0001

As you can see above that doesn't matter if the exam is passed or not. What comes as it should come. It can be seen as a marginal probability over P.

And we can also work out the probability the the singularity happens given that the student doesn't pass the exam:

P(S,|¬P)=P(S,¬P)P(¬P)=P(S,¬p,D)+P(S,¬P,¬D)P(¬P)=P(¬P|S,D)P(S)P(D)+P(¬P|S,¬D)P(S)P(¬D)S,DP(¬P|S,D)P(S)P(D)=0.0001818

Knowing that the guy doesn't pass the exam we can guess that he may be brainwashed by a machine is 0.0001818 which is a little bigger than when we don't know it.

2) But what if we know that the guy failed the exam and the exam is easy?

P(S,|¬P,¬D)=P(S=1,P=0,D=0)P(P=0,D=0)=P(P=0|S=1,D=0)P(S=1)P(D=0)P(P=0|S=1,D=0)P(S=1)P(D=0)+P(P=0|S=0,D=0)P(S=0)P(D=0)=0.999999×0.0001×0.50.2×0.9999×0.5+0.999999×0.0001×0.5=0.0004998

Lo and behold, the change is much bigger than we just know he doesn't plass the exam. Then we see that P(S|P)P(S|P,D) we can infer that SD|PI(P(P,S,D)) which means D can influence S via P.

May this detailed derivation be of hlep.

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.