重回帰を使用してデータの「因果関係」関係を見つける場合、何に注意する必要がありますか?


8

まず第一に、重回帰は、実際にはデータについて「因果関係」の推論を実際には与えないことに気付きます。私の現在のケースを説明しましょう:

4つの独立変数があり、測定しているものの駆動に関与していることを望みます(ただし、確実ではありません)。重回帰を使用して、これらの各変数が従属変数にどの程度寄与しているかを確認したかったのです。おそらく、変数「4番」は私のアウトカム測定に非常に強く影響しています(ベータの重みが0.7に近い)。

ただし、「独立した」変数の一部は実際には相互に相関している可能性があるため、これでは不十分だと言われています。その場合、実際には3と4の両方が等しく貢献している可能性があるときに、「変数4」が従属変数を駆動していると考えることができます。これは正しいようですが、私はこれに慣れていないので、よくわかりません。

将来的にこの問題を体系的に回避するにはどうすればよいですか?多重回帰を使用して、「独立した」データに非表示の相関がまだ含まれていないことを確認する場合、どの特定の手順をお勧めしますか?

編集:データ自体は、特定の神経学的状態の一連のネットワーク(グラフ)モデルです。各ネットワーク全体のトポロジー(ここでは従属変数)を表す「クラスタリング係数」を測定し、より大きな100以上のネットワーク内の4つのノードの個々の接続性がグローバルクラスタリング値(4つの独立した変数)を駆動しているかどうかを確認しています。変数)。ただし、これらのノードはネットワークの一部であるため、ある程度定義すると、ある程度相関している可能性があります。


3
相関関係を引き起こす原因は、科学哲学における論争の的となる問題です。「ゴールドスタンダード」とは、治療変数がランダムに割り当てられる実験を実行することです。これにより、交絡する可能性のある他の共変量が系統的に治療に関連付けられないようにします。しかし、多くの分野で、多くの質問に対して、実験は不可能です。外因性のいわゆる自然実験に目を向ける人もいます。Paul Hollandの古典的な記事「統計と因果推論」に興味があるかもしれません。アメリカ統計協会のジャーナル、81、945-970。
Jason Morgan

1
あなたは非常に重要な質問をしていますが、誰もがあなたに取るべき決定的な一連のステップまたは素晴らしい凝縮されたレシピをあなたに与えることができるかどうかは疑わしいです。この問題をマスターすることは長期的な命題です。調査する用語とトピックに関する追加の提案:サプレッサー変数。許容と分散のインフレ推定; ゼロ次、部分的、半部分的(部分)相関。変数の選択方法; 相互検証。
rolando2

このモデリングの目的を教えてくれれば、さらに役立つ提案が得られるかもしれません。多重回帰は、相関性の高い独立変数を非常にうまく処理しますが、それらが高度に相関していなければ、多重共線形性になります。他の人が言ったように、因果関係を評価することは、無作為化された実験以外では困難です(不可能ではありません)。これらのリンクのいくつかを参照してください:そのトピックの詳細については、licious.com / MichaelBishop / causalityを参照してください。
マイケル・ビショップ

データ自体は、特定の神経学的状態の一連のネットワーク(グラフ)モデルです。各ネットワーク全体のトポロジー(ここでは従属変数)を表す「クラスタリング係数」を測定し、より大きな100以上のネットワーク内の4つのノードの個々の接続性がグローバルクラスタリング値(4つの独立した変数)を駆動しているかどうかを確認しています。変数)。ただし、これらのノードはネットワークの一部であるため、ある程度定義すると、ある程度相関している可能性があります。
rd108

回答:


5

「将来的にこの問題を体系的に回避する」ことはできません。「問題」と呼ばれるべきではないためです。物質世界の現実が強い共変量を特徴とする場合、それを事実として受け入れ、結果として理論とモデルを調整する必要があります。私はこの質問をとても気に入っています。次の質問があまりにも期待外れに聞こえないように願っています。

ここにあなたのために働くかもしれないいくつかの調整があります。先に進む前に、回帰ハンドブックを確認する必要があります。

  • 相関関係または分散インフレ係数(VIF)などの推定後の手法を使用して、問題を診断します。SASまたはRを使用している場合は、Peter Flomが言及したツールを使用します。Stataでは、を使用pwcorrして相関行列gr matrixを作成し、散布図行列を作成し、vif1 / VIF <0.1の問題のある許容レベルを検出します。

  • var3*var4モデルに追加するなどして、相互作用効果を測定します。係数は、var3との間の関係を理解するのに役立ちますvar4。これにより、相互作用を部分的に測定することになるだけですが、モデルを制限から救うことはできません。

  • 最も重要なことは、強い多重共線性や異分散性などの他の問題を検出した場合は、モデルを破棄して最初からやり直す必要があります。モデルの誤指定は、回帰分析(および一般的な頻度分析法)の問題です。ポールSchrodtは彼の最近の「などの問題について、いくつかの優れた論文、持ってい七つの大罪」Iたくさんのようなものを。

これは多重共線性に関するあなたのポイントに答えるものであり、この多くはUCLA Stat Computingの回帰ハンドブックから学ぶことができます。因果関係に関するあなたの質問には答えません。簡単に言えば、回帰が原因となることは決してありません。統計モデルもありません。因果関係と統計情報は別の種です。Judea Pearl()から選択的に読んで、この問題についてさらに学習してください。

全体として、この回答は回帰分析の値、または頻度主義統計の値を相殺するものではありません(たまたま両方を教えています)。ただし、その妥当性の範囲は縮小されます。また、モデルが因果関係を持つ可能性を実際に決定する最初の説明理論の重要な役割が強調されます。


ハンドブックへのリンク、共線性とIVF、およびRの特定のソリューションと実装に言及するための+1。データ自体が回帰分析に適していないかどうかについてのあなたの意見を聞いて不思議です-上記の質問を編集して反映しましたこれらはネットワークの測定値であること。
rd108

返信が遅れて申し訳ありませんが、残念ながら、あなたが正しいテクニックを使用していると答えることができません。私の推測では、SNAに役立つ他のツールが含まれていると思います(たとえば、4つのノードの任意の組み合わせを抑制する場合、さまざまな中心性測定をモデル化します)。
神父

5

独立変数が相関しているかどうかを確認したい場合、それは簡単です。たとえば、SASのPROC CORR、Rのcor、または使用しているパッケージの何でも相関をテストしてください。

ただし、代わりに、またはそれに加えて、共線性をテストすることもできます。

しかし、それは因果関係の問題の一部にすぎません。さらに問題なのは、データに含まれていない変数が含まれていることです。古典的な例:

チューターを雇う学生は、チューターを雇わない学生よりも成績が悪くなります。

火災による被害の大きさは、出現する消防士の数に大きく関係しています。

と(私のお気に入り)

占星術の兆候と5歳から12歳の子供の年齢でIQを後退させる場合、有意な相互作用があり、IQの兆候の影響が大きくなりますが、幼児のみです。


理由:1.はい。本当に良い成績をとる学生はそもそも家庭教師を雇わない傾向があるからです

  1. はい、火が大きいほど被害が大きくなり、消防士が増えるため

  2. 子供が持っていた学校の数(月単位)は、誕生月によって異なります。学校制度には年齢制限があります。したがって、1人の6歳児は、別の6歳児より11か月多い学校であった可能性があります。

そしてそれは哲学に入ることなくです!


2

因果関係と関連の関係は、基本的に次の質問に答えることにあります。

バツY

この質問への答えが「何も」でない限り、あなたは連想について決定的に話すことができるだけです。提案された「因果関係」の1つは、実際には「正しい」因果関係の特別なケースである可能性があります。これは、ニュートン理論とアインシュタインの重力理論の間に起こったことだと思います。ニュートンの因果関係はアインシュタイン理論の特別なケースでした。そして彼の理論はおそらく他のいくつかの理論の特別なケースになるでしょう。

さらに、データにエラーがあると、明確な因果関係の可能性がなくなります。これは、「AはBを引き起こす」というフレーズがAとBの間の演繹的なリンクの一部であるためです。この仮説を反証するために必要なのは、Bは存在しないがAは存在する1つのケースを見つけることです(そのためAはtrueです) 、しかしこれはBも真であることを意味するはずです-しかし私たちはB偽を観察しました)。

YYYY。そして、因果関係を提案するときはいつでも、ほぼ確実に、新しいデータで結果を再現することによって「それを証明する」必要があります。どのデータが表示されるかを予測し、それについて正確である必要があります。

また、「因果関係」について何らかの物理理論が必要です(そのボタンを押すとライトがオンになり、このボタンを押すとライトの色が変わるなど)。もし「回帰係数が0.7だった」というだけのことなら、これは機能している因果関係メカニズムを確立するためにはほとんど効果がありません。


1

あなたの仕事がどの分野にあるのかはわかりませんので、これは役に立たないかもしれませんが、心理的構造でSPSSを使用することに最も精通しています。私の経験では、回帰で結果変数(または従属変数)を予測するいくつかの変数があり、1つ以上の独立変数が重要な予測子として表示されている場合、次のステップは、どの変数がより重要であるかを確認することですその他。これに取り組む1つの方法は、階層回帰です。これは基本的に「結果変数を予測するための「変数4」がすでにある場合、他の変数のいずれかが予測力の統計的に有意な増加をもたらすか?」という質問に答えます。SPSSはこれをかなり明確に分析する方法を持っています。RとSASも同様です。そう、階層回帰は、「変数4」が本当にアウトカムファクターを予測する最善の策であるかどうかを確認するための次のステップになると思います。応答した他の人が相関因果関係の問題について良い議論を提供してくれたので、それはそのままにしておきます...頑張ってください!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.