統計と因果推論?


51

1984年の論文「Statistics and Causal Inference」で、Paul Hollandは統計学の最も基本的な質問の1つを挙げました。

統計モデルは因果関係について何を言うことができますか?

これが彼のモットーにつながりました。

操作なしで原因なし

因果関係を考慮した実験に関する制限の重要性を強調しました。アンドリュー・ゲルマンも同様の点を指摘しています:

「何かを変更したときに何が起こるかを知るには、それを変更する必要があります。」...システムを混乱させることから学べることは、どんな量の受動的観測からも決して見つけられないことです。

彼の考えはこの記事で要約されます

統計モデルから因果推論を行う場合、どのような考慮事項が必要ですか?


2
偉大な質問:相関関係と因果関係にも、この関連の質問を参照stats.stackexchange.com/questions/534/...
Jeromy Anglim


5
と言っても過言ではありません。しかし、Pearlの本「Causality」(2002年、しかし最新の第2版)、またはHernan and Robinsの本「Causal Inference」(2015年、検索すると無料の電子ドラフト)を読むことができます。

回答:


28

これは広義の質問ですが、Box、Hunter、Hunterの引用は事実です。

  1. 実験計画の質:

    • ランダム化、サンプルサイズ、交絡因子の制御、...
  2. 設計の実装の品質:

    • プロトコルの順守、測定エラー、データ処理、...
  3. 設計を正確に反映するモデルの品質:

    • ブロッキング構造は正確に表現され、適切な自由度は効果に関連付けられ、推定量は偏りがありません...

明白なことを述べるリスクを冒して、私はそれぞれの重要なポイントを見つけようとします

  1. は統計の大きなサブフィールドですが、最も基本的な形では、因果推論を行うとき、理想的には、治療に割り当てられる以外の同じ環境で監視される同一のユニットから始めるという事実に帰着すると思います。割り当て後のグループ間の体系的な違いは、論理的に治療に起因します(原因を推測できます)。しかし、世界はそれほど良くなく、治療前の単位は異なり、実験中の環境は完全に制御されていません。したがって、「できることを制御し、できないことをランダム化する」ことで、制御またはランダム化した交絡因子による系統的な偏りがないことを保証できます。1つの問題は、実験が難しく(不可能に)高価になる傾向があり、コストを考慮して可能な限り慎重に制御された設定で可能な限り多くの情報を効率的に抽出するためにさまざまなデザインが開発されていることです。これらのいくつかは非常に厳密です(たとえば、医学では二重盲検、無作為化、プラセボ対照試験)、その他はそれほど厳密ではありません(たとえば、さまざまな形態の「準実験」)。

  2. また、大きな問題であり、統計学者は一般的に考えていません... 適用された統計作業では、データで見つかった「効果」がデータ収集または処理の不整合の偽の結果であった発生率を思い出すことができます。また、これらの問題のために興味の本当の因果関係に関する情報がどれくらいの頻度で失われるのか疑問に思います(応用科学の学生は一般的にデータが破損する可能性のある方法についてほとんど、またはまったくトレーニングを受けていないと思いますが、 ...)

  3. 別の大きな技術的課題であり、客観的因果推論における別の必要なステップです。これは、デザイン群衆がデザインとモデルを一緒に開発するため、ある程度まで考慮されます(モデルからの推論が目標であるため、推定器の属性がデザインを推進します)。しかし、これは、「現実世界」では非教科書デザインからの実験データを分析することになり、適切なコントロールやモデルへの入力方法、および関連する程度自由はあるべきであり、もしそうでなければ違反を調整する方法と、推定器が残りの違反に対してどれほど堅牢であるかという仮定が満たされるかどうか...

とにかく、うまくいけば、上記のいくつかは、モデルから因果推論を行う際の考慮事項について考えるのに役立ちます。大きな何かを忘れましたか?


3
ポイント2の大きなプラス1 データ収集を正しく行うことは、分析よりもはるかに重要です。
マットパーカー

私も答えたいと思いますが、キングスフォードが言ったことに追加するものは何もないのではないかと心配しています。
ジョリスメイズ

7

上記の優れた答えに加えて、因果関係の実証に近づけることができる統計的方法があります。従属変数の前に発生する1つの独立変数が因果効果を持つかどうかを示すのは、グレンジャー因果関係です。次のリンクで、わかりやすいプレゼンテーションでこの方法を紹介します。

http://www.slideshare.net/gaetanlion/granger-causality-presentation

競合するマクロ経済理論のテストにもこの方法を適用します:http : //www.slideshare.net/gaetanlion/economic-theory-testing-presentation

この方法は完全ではないことに注意してください。特定のイベントが他のイベントの前に発生し、それらのイベントが一貫した方向関係を持っているように見えることを確認するだけです。これは真の因果関係を伴うようですが、常にそうであるとは限りません。オンドリの朝の呼び出しは、太陽を昇らせません。


4

統計モデルは因果関係について何を言うことができますか?統計モデルから因果推論を行う場合、どのような考慮事項が必要ですか?

最初に明らかにすることは、純粋に統計的なモデルから因果推論を行うことはできないということです。因果的な仮定なしに、因果関係について何も言えない統計モデルはありません。つまり、因果推論を行うには、因果モデルが必要です。

ZXY

ここに画像の説明を入力してください

P(Y|do(X))=P(Y|X)XY

ここに画像の説明を入力してください

X

これはさらに複雑になる可能性があります。測定エラーの問題がある可能性があります。被験者は、他の問題の中でも、試験を落とすか、指示に従わない場合があります。これらの事柄が推論を伴う進行にどのように関連しているかについての仮定を行う必要があります。「純粋に」観測データでは、通常、研究者はデータ生成プロセスについて良い考えを持っていないため、これはより問題になる可能性があります。

したがって、モデルから因果推論を引き出すには、その統計的仮定だけでなく、最も重要なのはその因果仮定を判断する必要があります。因果分析に対する一般的な脅威は次のとおりです。

  • 不完全/不正確なデータ
  • 明確に定義されていない対象の関心対象量(特定したい因果効果は何ですか?対象母集団は何ですか?)
  • 交絡(観察されない交絡因子)
  • 選択バイアス(自己選択、切り捨てられたサンプル)
  • 測定誤差(ノイズだけでなく交絡を引き起こす可能性があります)
  • 仕様の誤り(例、機能形式の誤り)
  • 外部妥当性の問題(ターゲット母集団への誤った推論)

これらの問題がないという主張(またはこれらの問題に対処したという主張)は、研究自体の設計によって裏付けられる場合があります。実験データが通常より信頼できる理由です。しかし、時には、人々はこれらの問題を理論または便利さのいずれかで取り去ります。理論が(社会科学の場合のように)ソフトである場合、額面どおりに結論を出すことは難しくなります。

バックアップできない仮定があると思うときはいつでも、それらの仮定のもっともらしい違反に対する結論の感度を評価する必要があります。これは通常、感度分析と呼ばれます。


破線の双方向矢印を追加のノードからの2つの一方向の実線矢印で置き換えるのと同等ですか?
テイラー

@Taylorはい、潜在的な(観測されていない)追加ノード。
カルロスチネリ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.