単純な線形回帰は因果関係を意味しますか?


17

相関は因果関係を意味するのではなく、関係の強さと方向を意味します。単純な線形回帰は因果関係を意味しますか?それとも、推論(t検定など)統計検定が必要ですか?


3
「方向」とはどういう意味ですか?同様の質問への回答を読んでいますstats.stackexchange.com/search?q=causal?短い答えはノーです!
NRH

3
どちらの提案も因果関係(または方向)を意味しません。
ヘンリー

2
私はXとYの間のいずれかの因果関係の方向、OPは負の相関対正の意味での「方向」を意味するものではないと思う
JMS

回答:


19

簡単な答えは、いいえです。回帰すると、あらゆる種類の統計テストに合格する関連性のないデータを簡単に見つけることができます。以下は、データ駆動型の「因果関係」を説明するために使用されているウィキペディアの古い写真です(何らかの理由で最近削除されました)。

地球を冷やすためにもっと海賊が必要ですか?

ここに画像の説明を入力してください

時系列には、「Granger Causality」と呼ばれる非常に具体的な意味を持つ用語があります。

http://en.wikipedia.org/wiki/Granger_causality

それ以外に、「因果関係」は見る人の目にあります。


方向によって正の相関または負の相関を意味しました。ご回答いただき、同様の質問へのリンクをお寄せいただきありがとうございます。
user4572

1
それはその写真の中の非常にクレイジーなX軸です!(しかし良い例!)
アンディW

2
別の.....バングラデシュのチーズ、バター、羊、S&P500(R ^ 2 = 0.99)...... nerdsonwallstreet.typepad.com/my_weblog/files/… ....
bill_080

5
そのグラフは明らかに時代遅れです。どちらの原因でサンプルを利用できる測量士の不足に偏りがあることやアデン湾
カーディナル

2
そのデータは、アルゴアが海賊になる前のものでした。
-bill_080

10

因果関係を示す回帰の数学には明確なものはないため、傾き(強度と方向)もp値(すなわち、以下の場合に強いまたは強い関係が観察される確率)を明示的に解釈する必要はありません。関係は母集団でゼロだった)因果関係で。

そうは言っても、回帰には、2つの変数間の相関を推定するよりも、明示的な方向関係を推定しているという意味がはるかに強くあります。相関によってピアソンのrを意味すると仮定すると、メトリックが対称であるため、通常、明示的な因果解釈はありません(つまり、変数がXかYかを切り替えることができ、同じ測定値が得られます)。また、「相関関係は因果関係を意味しない」という口語表現もよく知られているので、2つの変数が相関していると仮定すると、1つは因果関係を表明しないという仮定になります。

ただし、回帰分析の推定効果は対称ではないため、右側と左側の変数を選択することで、相関変数とは異なる暗黙のステートメントを作成します。私は、回帰が使用される状況の大部分で、何らかの因果関係を述べるつもりであると疑っています(推論と予測は別として)。単純に相関関係を述べる場合でも、人々はしばしば因果推論の暗黙の目標を念頭に置いていると思います。いくつかの制約が満たされている場合、相関は因果関係を意味します!


7

相関も回帰も因果関係を示すことはできません(@ bill_080の答えで示されています)が、@ Andy Wが示すように、回帰は明示的に固定された(つまり独立した)変数と明示的な(つまりランダムな)従属変数に基づいていることがよくあります。これらの指定は、相関分析では適切ではありません。

Sokal and Rohlf、1969、p。を引用するには 496

「回帰では、変数の依存性を説明しようとするYを独立変数にXの変化の可能性因果関係についての仮説を支持する貸して... Yの変化により、X ...」

「対照的に、2つの変数が相互依存的であるか、それとも共変数であるか、つまり、一緒に変化するかどうかに大きく関係しています。一方を他方の関数として表現しません。」

Sokal、RRおよびFJ Rohlf、1969。Biometry フリーマンアンドカンパニー


4

セマンティックの観点から、別の目標は、因果関係を証明するのではなく、優れた予測モデルの証拠を構築することです。回帰モデルの予測値の証拠を構築する簡単な手順は、データを2つの部分に分割し、データの一部とデータテストの他の部分に回帰を適合させることです。

グレンジャーの因果関係の概念は興味深いです。


2

β^=CovバツyVarバツ
α^=y¯β^バツ¯

ここで、Var(。)およびCov(。)はサンプル(データ)からの推定値です。

したがって、これらのパラメーター自体は、xとyの間の相関関係の関数にすぎません。特に、ベータは単なる「正規化された」相関係数です。したがって、回帰よりも相関よりも暗黙の因果関係はありません。因果回帰は、特定の回帰モデルの因果解釈をあいまいにする交絡のような現象を回避するために、たとえば計器変数に依存する必要がある計量経済学の特別な手法です。

私のポイントは次のとおりです。回帰ができます作られた因果関係が、それはされない Yデフォルト因果。

詳細については、これらのビデオを参照してください:https : //www.youtube.com/watch?v=Sqy_b5OSiXw&list=PLwJRxp3blEvaxmHgI2iOzNP6KGLSyd4dz&index=55&t=0s

ルービン自身による「ルービンモデル」:http : //www.stat.columbia.edu/~cook/qr33.pdf

因果関係に関する優れた入門コース(ただし、まだ回帰はありません):https : //www.coursera.org/learn/crash-course-in-causality


良い点。CVへようこそ。
ニールG

0

私の理解(私は因果関係の初心者です)は次のとおりです。

  • 共変量が制御された実験からのものである場合、線形回帰は因果関係を意味し、実験は仮説化された因果要因をうまく分離します(ランダム化された制御された実験の線形回帰と因果関係を参照)。

  • Alternatively, (updated thanks to comments), many violations of causality lead to E(ϵ|X)0. Note that E(ϵ|X)0 means that we can't draw causal conclusions, but E(ϵ|X)=0 doesn't mean that we can.

Note that we can't test whether E(ϵ|X)=0, and there is some circularity in the arguments here.


2
Could you elaborate on how E(ϵ|X)=0 implies causation?
Sextus Empiricus

See this for a detailed discussion stats.stackexchange.com/questions/59588/…, with some nice points made.
mlstudent

could you be a bit more direct. I see no prrof or explanation how or why E(ϵ|X)=0 implies causation.
Sextus Empiricus

I'm a bit new to causality, but as I understand it there are three major concerns that could make y=α+βx+ϵ not imply causality. One is if there is some other omitted variable causing y, another is if there is an omitted variable causing x, and finally a third is that y may cause x. All will lead to violations of the exogeneity condition. I don't have the math for exactly why but will actually look this up/try to derive it.
mlstudent

A simple counter example. When you generate data YN(μY,σY) and X|YN(a+bY,σX) then you still have E(ϵ|X)=0 (X and Y are jointly normal distributed).
Sextus Empiricus

-6

Regression ASSUMES a causal relationship....if there is no basis for causality as a result of physical/intellectual/scientific analysis of the issue, there is no basis for a causal analysis and no basis for a regression. This is why the FDA and similar government agencies are always proclaiming "This causes that!" only to retract it years and billions of dollars in damage, later. Examples are legion: coffee, chocolate, caffeine, bacon, eggs, etc....

Worse yet is when two variable have a feedback loop. One may cause the other at one point; only for the other to cause the one, later. This always happens in my field, economics: which is why most economic analysis isn't worth the paper it is printed on.


6
This is completely wrong. Regression just finds a relationship between two sets of numbers. Whether that relationship exists because of a direct causal connection or not is a completely different issue.
gung - Reinstate Monica
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.