「相関関係が因果関係を意味しない」場合、統計的に有意な相関関係が見つかった場合、どのようにして因果関係を証明できますか?


30

相関関係は因果関係ではないことを理解してます。2つの変数間に高い相関関係があると仮定します。この相関関係が実際に原因であるかどうかをどのように確認しますか?または、どのような条件下で、正確に、実験データを使用して2つ以上の変数間の因果関係を推測できますか?


2
実験データが必要です。参照する実験計画を説明してください。
フランクハレル14年

1
先生、実験データはありません。因果関係を推定するために、どのような制御された実験を実行する必要があるのか​​を理解したかったのですか?
マニッシュバーンウォル14年

4
多くの可能なデザインがあります。要するに、他のすべての変数を物理的に制御し、関心のある1つの要素を変更するか、実験操作の適用をランダム化し、他のすべての可能な説明の効果を「平均化」します。
フランクハレル14年

2
つまり、ある種の外生的な変化が必要です。
abaumann 14年

1
相関XY、一方を他方の原因として選択すると、責任感が最小化され、運命感が最大化されます。
ttnphns 14年

回答:


16

2つの変数が相関している非常に考えられる理由は、それらの変更が3番目の変数にリンクされていることです。その他の考えられる理由は、偶然(相関について十分な非相関変数をテストする場合、いくつかは相関を示す)、または複数のステップを含む非常に複雑なメカニズムです。

このような例については、http://tylervigen.com/を参照してください。

ここに画像の説明を入力してください

A-> Bの因果関係を自信を持って述べるには、変数Aを制御でき、他の変数に影響を与えない実験が必要です。次に、変数を変更した場合にAとBの相関がまだ存在するかどうかを測定します。

ほぼすべての実用的なアプリケーションでは、他の(多くの場合未知の)変数にも影響を与えないことはほとんど不可能です。したがって、できることは因果関係がないことを証明することです。

因果関係を述べることができるようにするには、2つの変数に因果関係があるという仮説から始め、実験を使用して仮説を反証し、失敗した場合、ある程度の確実性で仮説が真であると述べることができます。確実性の程度をどの程度高くする必要があるかは、研究分野によって異なります。

多くのフィールドでは、実験の2つの部分を並行して実行することが一般的または必要です。1つは変数Aが変更され、もう1つは変数Aが変更されないコントロールグループです。薬を針で刺したり、錠剤を飲み込ませたりします。実験でAとBの相関関係が示されているが、AとB '(コントロールグループのB)の相関関係は示されていない場合は、因果関係を仮定できます。

実験が不可能である場合、またはさまざまな理由(モラル、倫理、PR、コスト、時間)でお勧めできない場合、因果関係を結論付ける他の方法もあります。1つの一般的な方法は、控除を使用することです。コメントから例を挙げると、喫煙が人間に癌を引き起こすことを証明するために、我々は喫煙がマウスに癌を引き起こすことを証明する実験を使用できます。喫煙が人間に癌を引き起こす可能性が高い-癌が喫煙を引き起こすことも反証すれば、この証拠を強化することができます。因果関係を結論付ける別の方法は、相関関係の他の原因を除外し、因果関係を相関関係の最良の残りの説明として残すことです。この方法は常に適用できるわけではありません。これは、相関関係の考えられるすべての原因(別の回答では「バックドアパス」と呼ばれる)を排除することが不可能な場合があるためです。喫煙/がんの例では、おそらくこのアプローチを使用して、肺のタールの原因が喫煙であることを証明できます。

因果関係を「証明」するこれらの他の方法は、単純な実験ほど決定的なものではないため、科学的な観点から必ずしも理想的ではありません。地球温暖化の議論は、再現性のある実験でまだ最終的に証明されていない因果関係を却下することがはるかに簡単であることを示す素晴らしい例です。

コミックレリーフのために、技術的にもっともらしいが、非科学的な理由(モラル、倫理、PR、コスト)のために推奨できない実験の例を次に示します。

phroyd.tumblr.comから撮影した画像


3
これは強すぎる状態です。疫学では、要件は、実験を制御することが最善では実用的ではないので、それほど厳格であり、最悪の非倫理- 「ない喫煙の原因がん」
user295691

2
パールが喫煙が人間の癌を引き起こすことを示すために与える例は、タールが喫煙と癌の間の中間変数として見られる正面玄関法です。「理想的ではない」とはどういう意味かわかりません。喫煙を強要し、がんになるかどうかを確認するよりも間違いなく理想的です!
ニールG 14年

1
@Neil「人々に喫煙を強要し、がんになるかどうかを確認するよりも間違いなく理想的です」-目標が因果関係を証明することである場合、私は強く反対します。一方、目標が倫理的問題、資金の削減、または暴徒を避けることである場合、それはより理想的です、はい。
ピーター14年

10

設計が実験的であるか観察的であるかに関係なく、変数Aと結果Yの間の関連付けは、AとYの間にオープンバックドアパスがない場合、AとYの間の因果関係を反映します。

実験計画では、これは曝露または治療割り当てのランダム化によって最も簡単に達成されます。理想的なランダム化がなければ、連想治療効果は、交換可能性(治療の割り当ては反事実的結果とは無関係)、陽性などの仮定の下での因果治療効果の公平な推定です...

参照資料

ハーナン、ロビンズ。因果推論
パール。統計における因果推論:概要

PSトピックの詳細については、因果推論と次の名前(最初から)をグーグルで検索できます。JudeaPearl、Donald Rubin、Miguil Hernan。


ここを見てください:en.wikipedia.org/wiki/Correlation_does_not_imply_causation私はアッシュの声明に矛盾します:設計が実験的または観察的であるかどうかに関係なく、変数Aと結果Yの間の関係は、AとYの間の因果関係を反映しますAとYの間に開いているバックドアパスはありません。たとえば、アイスクリームの販売、Yはスイミングプールで死亡します。相関しますが、それらが増加または減少する原因は温度です。多分Ashは、3番目の変数に依存するオープンバックドアパスを意味しますが、その定式化は非常に不明確です。
カール14年

あなたの例の裏口は季節です。バックドアパスは3番目の変数を意味します。
ニールG 14年

因果関係の研究に対するJudea Pearlの貢献に不慣れな人のために、2011年Turing Awardを授与されたAssociation for Computing MachineryのWebサイトから彼の伝記を読むと役立つかもしれません。パールは、アムスタットニュースとのインタビューで、統計教育のカリキュラムに因果推論のより多くの議論を含める必要性について議論しています。
jthetzel 14年

コメントは詳細なディスカッション用ではありません。この会話はチャットに移動さました
gung-モニカの復職

3

弁護士収入の増加と相関する離婚率の増加を考慮してください。

直観的には、これらのメトリックを相関させる必要があることは明らかです。より多くのカップル(需要)がより多くの離婚を申請するため、より多くの弁護士(供給)が価格を引き上げます。

離婚率の増加がいるようです原因カップルから余分な需要があるため、弁護士の収入の増加を引き起こした弁護士がその価格を上げるために。

それとも、逆向きですか?弁護士が意図的かつ独立して価格を引き上げた後、離婚広告に新しい収入を費やした場合はどうなりますか?これももっともらしい説明のようです。

このシナリオは、統計分析が示すことができる任意の数の3番目の説明変数を示しています。以下を考慮してください。

  1. すべてのデータポイントを測定することはできませんが、
  2. すべての説明のつかないデータポイントを排除したい、
  3. データポイントを測定する場合にのみ、データポイントを削除する理由を正当化できます。

あなたには難問があります。すべてのデータポイントを測定することはできません。説明のつかないデータポイントを無視することを正当化する場合は、測定する必要があります。(一部のデータポイントは測定せずに削除できますが、少なくとも正当化する必要があります。)

境界のないシステムでは、因果関係の証明は正しくありません。


2

AとBが相関しており、一致を除外した後、AがBを引き起こすか、BがAを引き起こすか、または未知の原因XがAとBの両方を引き起こす可能性が最も高くなります。

最初のステップは、考えられるメカニズムを調べることです。AがBを、またはその逆に、またはXが両方を引き起こす可能性のある他の原因を考えてみてください。(これは、この調査が原因を証明しようとする実験を行うよりも安価であると仮定しています)。因果関係を示す実験を行う価値があると思われる立場になります。あなたはありますが、仕組みを考えることができない場合の処理(AがBの原因となるが、我々は可能性がある理由はわかりません)。

その実験では、疑わしい原因を思いのままに操作できる必要があります(たとえば、原因が「ピルAを服用している」場合、ピルを摂取する人もいれば、そうでない人もいます)。次に、通常の予防措置を講じ、ピルを無作為に服用する人と服用しない人を選びます。あなたもテストした人も、誰がピルを服用し、誰が服用しなかったかを知りません。あなたはまた(ちょうど他のグループが汚れに偽の丸薬を取得しながら、窓から入る日差しと暖かい部屋で人々に錠剤Aを与え、不快な部屋等しい実験の残りの部分を維持しようとするかもしれない、あなたのデータに影響を与えます)。したがって、唯一の違いがその丸薬であり、丸薬を服用するか服用しないかの原因が他に影響を与えないランダムな決定であると結論付けた場合、


2

gnasherとPeterが説明した介入(実験)データは、因果関係の良いケースを作る最も簡単な方法です。ただし、観測データを介して因果関係を推定する可能性について言及しているのはAshの回答のみです。彼が言及するバックドア方式に加えて、フロントドア方式は、観測データといくつかの因果的仮定に基づいて因果関係を確立する別の方法です。これらはユダヤ真珠によって発見されました。ここでこれらを要約し参照しようとしました


0

因果関係ステートメントを作成するには、ランダムサンプリングとランダム割り当ての両方が必要です。

  • ランダムサンプリング:各個人は、研究のために選択される等しい確率を持っています
  • ランダム割り当て:実験の各個人は、少し異なる特性を示します。

そのため、上記のサンプリングされたグループから治療グループと対照グループを選択する場合、同様の特性を持つ同数の人が治療グループと対照グループの両方にいるはずです。

治療群は、医学が人に与えられた基です。対照群には薬が与えられていないされているグループです。また、被験者に薬は与えられないが、与えられていると言われるプラセボグループを定義することもできます。

最後に、効果が治療グループでは見られるが、対照グループでは見られない場合、因果関係を確立できます。


私の意見では、プラセボグループは絶対に必要です。また、被験者を扱う責任者は、誰がどのグループに属しているか知らないようにする必要があります(「二重盲検」)。それ以下は間違いなく信頼性が低いと考えます。テストは簡単ではありません。
マフ14年

無作為化対照プラセボ試験は、無作為化対照試験よりも信頼性が高いが、無作為化対照試験を使用して因果関係の記述を行うことができる
show_stopper 14年

2
「因果関係ステートメントを作成するには、ランダムサンプリングとランダム割り当ての両方が必要です」-これは正しくありません。フロントドアとバックドアの方法を参照してください。
ニールG 14年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.