ランダム化対照研究と観察研究の違いに関する質問の2番目の部分から始めて、「真のモデル」と「構造因果モデル」に関する質問の部分で締めくくります。
わかりやすいパールの例を使用します。アイスクリームの売り上げが最も高い(夏)場合は犯罪率が最も高く(夏)、アイスクリームの売り上げが最も低い(冬)場合は犯罪率が最も低いことに気づきます。これは、アイスクリームの販売のレベルが犯罪のレベルを引き起こしているかどうか疑問に思います。
ランダム化された制御実験を実行できる場合、何日もかかり、100日と想定し、これらの各日にランダムにアイスクリームの販売レベルを割り当てます。以下のグラフに示されている因果構造を考えると、このランダム化の鍵は、アイスクリームの販売レベルの割り当てが温度のレベルに依存しないことです。そのような仮説の実験を実行できた場合、売上高がランダムに割り当てられた日に高い平均売上高が割り当てられた曜日と統計的に変わらないことがわかります。このようなデータを手に入れたら、準備は完了です。ただし、ほとんどの場合、観測データを使用する必要があります。この場合、ランダム化では上記の例のような効果は得られませんでした。重要なことに、観測データでは、アイスクリームの販売レベルが気温とは無関係に決定されたのか、それとも気温に依存していたのかはわかりません。結果として、因果関係を単に相関関係から何らかの形で解明する必要があります。
パールの主張は、E [Y | XとYの結合分布によって与えられるXの値に関する条件付けとは対照的に、統計にはE [Y | Xを特定の値に等しく設定する]を表す方法がないということです。 ]。これが、E [Y | X = x]とは対照的に、Xに介入してその値をxに設定したときに、表記E [Y | do(X = x)]を使用してYの期待値を参照する理由です。 、これはXの値に条件を付け、それを与えられたとおりに扱うことを指します。
変数Xに介入すること、またはXを特定の値に等しく設定することは、正確にはどういう意味ですか?そして、それはXの値の条件付けとどう違うのですか?
介入は以下のグラフで最もよく説明されています。温度はアイスクリームの売上と犯罪率の両方に因果的影響を与え、アイスクリームの売上は犯罪率に因果的影響を与えます。これらの要因をモデル化する必要はありません。私たちの関心は、犯罪率に対するアイスクリーム販売の因果関係にあり、因果関係の描写が正確で完全であると仮定します。下のグラフをご覧ください。
ここで、アイスクリームの販売レベルを非常に高く設定し、それが犯罪率の増加につながるかどうかを観察するとします。これを行うには、アイスクリームの販売に介入します。つまり、アイスクリームの販売が自然に温度に応答することを許可しません。実際、これは、パールがグラフ上で「手術」と呼んでいるものを、それに向けられたすべてのエッジを削除して実行することになります。変数。今回のケースでは、アイスクリームの販売に介入しているため、以下に示すように、温度からアイスクリームの販売へのエッジを削除します。アイスクリームの販売レベルは、気温によって決定されるのではなく、必要に応じて設定されます。次に、そのような2つの実験を行ったとします。1つは介入してアイスクリームの販売レベルを非常に高く設定し、もう1つは介入してアイスクリーム販売のレベルを非常に低く設定してから、それぞれのケースで犯罪率がどのように反応するかを観察します。次に、アイスクリームの売上と犯罪率の間に因果関係があるかどうかを理解し始めます。
パールは介入と条件付けを区別しました。ここでの条件付けは、データセットのフィルタリングのみを指します。温度の条件付けは、温度が同じである場合にのみ観測データセットを調べると考えてください。コンディショニングは、常に私たちが探している因果関係を与えるとは限りません(ほとんどの場合、因果関係を与えるわけではありません)。上記の単純化した図では、条件付けによって因果関係の効果が得られることがありますが、グラフを簡単に変更して、温度での条件付けでは因果関係の効果が得られず、アイスクリームの販売に介入した場合の例を示すことができます。アイスクリームの販売を引き起こす別の変数があると想像してください。これを変数Xと呼びます。グラフでは、アイスクリームの販売への矢印で表されます。その場合、温度で調整しても、変数X->アイスクリーム販売->犯罪率というパスがそのまま残るため、犯罪率に対するアイスクリーム販売の因果関係は得られません。対照的に、アイスクリームの販売に介入すると、定義により、アイスクリームへのすべての矢印が削除され、犯罪率に対するアイスクリームの販売の因果関係が得られます。
パールの最大の貢献の1つは、私の意見では、コライダーの概念と、コライダーの条件付けによって独立変数が依存する可能性が高くなることです。
パールは、E [Y | do(X = x)]で与えられる因果係数(直接効果)を持つモデルを構造因果モデルと呼びます。そして、係数がE [Y | X]によって与えられる回帰は、著者が誤って「真のモデル」と呼んでいると彼が言ったものであり、誤って、つまり、Yに対するXの因果効果を推定し、Yを予測するだけではない。
それでは、構造モデルと経験的に何ができるかの間のリンクは何ですか?変数Bに対する変数Aの因果関係を理解したいとします。パールは、そうするための2つの方法を提案します。バックドア基準とフロントドア基準です。前者について詳しく説明します。
バックドア基準:最初に、各変数のすべての原因を正確にマッピングする必要があります。バックドア基準を使用して、条件付けする必要がある変数のセットを特定します(重要なのは、 Bに対するAの因果関係を分離するために、条件付けしないでください(つまり、コライダー)。パールが指摘するように、これはテスト可能です。因果モデルを正しくマッピングしたかどうかをテストできます。実際には、これは言うより簡単であり、私の意見では、パールのバックドア基準の最大の課題です。次に、通常どおり回帰を実行します。これで、何を条件付けるかがわかります。得られる係数は、因果関係のマップでマップされているように、直接的な影響です。