XとYは相関していませんが、Xは重回帰におけるYの重要な予測因子です。どういう意味ですか?


34

XとYは相関していません(-.01)。ただし、Yを予測する重回帰にXを配置すると、3つの(A、B、C)他の(関連する)変数とともに、Xと2つの他の変数(A、B)がYの有意な予測子になります。 A、B)変数は回帰の外側でYと有意に相関しています。

これらの調査結果をどのように解釈すればよいですか?XはYの一意の分散を予測しますが、これらは相関関係がないため(ピアソン)、解釈が多少困難です。

私は反対のケースを知っています(つまり、2つの変数は相関していますが、回帰は重要ではありません)。それらは理論的および統計的観点から理解するのが比較的簡単です。予測子の一部は完全に相関しています(たとえば、.70)が、実質的な多重共線性が期待される程度ではないことに注意してください。たぶん私は間違っています。

注:以前にこの質問をしましたが、終了しました。合理的なのは、この質問が「どのように回帰が有意であるが、すべての予測変数が有意でない可能性があるのか​​」という質問と重複しているということでした。「おそらく、私は他の質問を理解していないが、これらは数学的にも理論的にも完全に別個の質問だと思う。私の回帰は「回帰が重要」かどうかから完全に独立している。これらの質問が理解できない理由で冗長な場合は、この質問を閉じる前にコメントを挿入してください。また、もう一方を閉じたモデレーターにメッセージを送りたいと思っていました同一の質問を回避するための質問ですが、そうするオプションを見つけることができませんでした。


2
これは前の質問と非常に似ていると思います。XとYが本質的に無相関の場合、単純な線形回帰ではXの勾配係数は重要ではありません。結局、勾配の推定値はサンプルの相関に比例します。ナットの重回帰は、XとZが一緒になってYの変動性の多くを説明するため、別の話になる可能性があります。
マイケルR.チャーニック

2
他のスレッドでの返信と非常に詳細な回答をありがとう。私はそれの論文を得るために数時間にわたってそれを読む必要があります。私の他の懸念は、おそらく統計的または数学的にではなく、実際にどのように解釈するかです。たとえば、水泳速度と特性不安は相関していませんが、特性不安は他の予測因子と並んで重回帰の水泳速度の重要な予測因子です。これは実際にはどのように理にかなっていますか?臨床ジャーナルのディスカッションセクションでこれを書いていたとしましょう!
Behacad

3
@jthこの2つの質問は、重複とは見なされないほど十分に異なるため、他の質問への回答はこちらに移動してください。(私はもともと違いを鑑賞していないことをお詫び申し上げます。)新しいノートを、私は信じて、質問を想定して間違っているが、数学的に異なっている-彼らは基本的に同じであるから、マイケルChernickポイント@ -しかし重視解釈は正当な理由を確立しますスレッドを分離します。
whuber

1
私も答えをここに移動しました。両方の質問はまったく異なると思いますが、いくつかの共通の説明を共有するかもしれません。
JDav

1
このWebページには、関連トピックの別の素晴らしい議論があります。長いですが、非常に優れており、問題を理解するのに役立ちます。完全に読むことをお勧めします。
GUNG -復活モニカ

回答:


39

因果理論は、2つの変数が無条件に独立でありながら条件に依存する方法について別の説明を提供します。私は因果理論の専門家ではなく、以下の誤認を修正する批判に感謝しています。

説明のために、有向非巡回グラフ(DAG)を使用します。これらのグラフでは、変数間のエッジ()は直接的な因果関係を表します。矢印(または)は、因果関係の方向を示します。したがって、ABは、AB直接引き起こすと推測し、ABは、ABによって直接引き起こされると推測します。ABCは、ABを介してCを間接的に引き起こすことを推論する因果経路です。B。簡単にするために、すべての因果関係が線形であると仮定します。

まず、交絡因子バイアスの簡単な例を考えてみましょう。

交絡者

ここで、単純な二変数回帰はバツY間の依存性を示唆します。ただし、バツY間には直接的な因果関係はありません。代わりに、両方ともZによって直接引き起こされ、単純な二変数回帰では、Zを観察するとバツY依存関係が誘導され、交絡によるバイアスが生じます。ただし、Z多変数回帰条件付けはバイアスを除去し、バツY間に依存関係がないことを示唆します。

次に、コライダーバイアス(選択バイアスが特別なタイプであるバークソンバイアスまたはバークソンバイアスとも呼ばれる)の例を考えます。

コライダー

ここで、単純な二変数回帰はバツY間に依存関係がないことを示唆します。これは、バツY間の直接的な因果関係を推測しないDAGと一致します。ただし、Z多変数回帰条件付けにより、バツY間に依存関係が生じ、実際には何も存在しない場合でも、2つの変数間に直接の因果関係が存在する可能性があります。多変数回帰にZを含めると、コライダーバイアスが発生します。

第三に、偶発的なキャンセルの例を考えてみましょう。

cancellation

私たちはその仮定しようαβ、そしてγ、パス係数と、そのあるβ=αγ。単純な二変数回帰は、XY間に依存関係がないことを示唆します。が、X実際には直接の原因であるYの交絡影響Z上のXY偶然にの効果が相殺さXY。上の多変量回帰コンディショニングZの交絡効果を除去するZ上にX及びY、直接の効果の推定を可能にするX上のY、因果モデルのDAGを想定することは正しいです。

要約する:

交絡 因子の例:XYは二変数回帰に依存し、交絡因子Z多変数回帰条件付けに依存しません。

コライダーの例: XYは、二変数回帰では独立しており、コライダーZ多変数回帰調整では依存しています。

偶発的なキャンセルの例: XYは、二変数回帰では独立しており、交絡因子Z多変数回帰条件付けに依存しています。

討論:

分析の結果は交絡子の例とは互換性がありませんが、コライダーの例と偶発的なキャンセルの例の両方とは互換性があります。このように、潜在的な説明は、あなたが誤って多変量回帰でコライダー変数を条件としているとの間の関連性誘発していることであるXYにもかかわらず、Xの原因ではありませんYY原因ではありませんX。また、あなたは正しく、偶然の真の効果相殺されたあなたの多変量回帰に交絡因子を条件としているかもしれないXYごbivariable回帰で。

統計モデルに含める変数を検討する際に、背景知識を使用して因果モデルを構築すると役立ちます。以前の高品質で研究が結論づけランダム化された場合例えば、X原因ZY原因とZ、私はという強い仮定作ることができZのコライダーであるXYの統計モデルでは、それに応じた状態とされていません。私は単にことを直感持っていた場合は、X生じないZ、そしてY原因とZ、私の直感を裏付ける強力な科学的な証拠を、私は弱い仮定こと作ることができZXYコライダーであり、人間の直感には見当違いの歴史があります。その後、私は、Zとの因果関係をさらに調査することなく、XY因果関係を推測することに懐疑的です。背景知識の代わりに、またはそれに加えて、一連の連想テストを使用して、データから因果モデルを推測するように設計されたアルゴリズムもあります(PCアルゴリズムとFCIアルゴリズム、TETRAD for Java実装、PCalgを参照)ZR実装のため)。これらのアルゴリズムは非常に興味深いですが、私はパワーと因果論における因果計算と因果モデルの限界をよく理解せずにそれらに頼るreccomendないでしょう。

結論:

因果モデルの熟考は、研究者がここの他の回答で議論された統計的考察に取り組むことを許しません。しかし、特に潜在的な交絡因子とコライダーを視覚化する場合、統計モデルで観測された統計的依存性と独立性の潜在的な説明を考えるとき、因果モデルはそれにもかかわらず有用なフレームワークを提供できると思います。

参考文献:

ゲルマン、アンドリュー。2011年、「因果関係および統計的学習。」アム。J.社会学117(3)(11月):955–966。

グリーンランド、S、Jパール、JMロビンス。1999.「疫学研究の因果図」。疫学(ケンブリッジ、マサチューセッツ州)10(1)(1月):37–48。

グリーンランド、サンダー。2003.「因果モデルにおけるバイアスの定量化:古典的交絡対衝突型ストラテフィケーションバイアス。」疫学14(3)(5月1日):300–306。

真珠、ユダヤ。1998年、多くがある、そしてなぜ彼らはほぼ正しいと考える理由は統計的テスト用の交絡があるなぜ、

真珠、ユダヤ。2009. 因果関係:モデル、推論、推論。第2版 ケンブリッジ大学出版局。

Spirtes、Peter、Clark Glymour、およびRichard Scheines。2001. 因果関係、予測、および検索、第2版。ブラッドフォードの本。

アップデート:ユダヤパールは因果推論の理論とで入門統計コースに組み込む因果推論に必要論じAmstatニュースの2012年11月版を。彼のチューリング賞講演関心もある:「A 『ミニ』チューリングテストおよび超え因果推論の機械化」と題し、。


因果的な議論は確かに有効ですが、研究者がそのアプローチに同意するには、根本的な現象に関する非常に優れた知識が必要です。@Behacadが実行している分析は探索的なものに過ぎないのだろうか。
JDav

1
@Behacad:としては、私の答えで述べたように、私はあなたが単一忘れることをお勧めあなたの問題は、多変量1と二変数ではないとして。関心のある変数の影響を測定するには、xの測定された影響を歪める可能性のある他の変動源を制御する必要があります。ρ
JDav

5
+1イラストと説明は非常に明確でよくできています。(明らかに)は、この答えに入ったことを努力と研究をありがとうございました。
whuber

1
また、誰かが「偶発キャンセルの例を検討し、第三の?」私の実用的な例を与えることができます。因果関係の問題が出てきます。XとYが相関していない場合は、原因『"私たちはこのことを考慮することができるか、(すなわち、Xの変化がYの変化に関連付けられていない)』。これは私が別の質問で疑問に思って、まさにです!stats.stackexchange.com/questionsを/ 33638 / ...
Behacad

4
これらのためのいくつかの代替名があることを指摘し、それの価値:交絡因子- >共通モデル原因。衝突- >コモンエフェクトモデル。&付帯キャンセルは、部分的な調停の特殊なケースです。
GUNG -復活モニカ

22

私は@ jthetzelのアプローチは、右の1(+1)だと思います。これらの結果を解釈するには、なぜ関係が現れるのかについての理論を考えたり、持っている必要があります。つまり、データの根底にある因果関係のパターンについて考える必要があります。@jthetzelが指摘しているように、結果はいくつかの異なるデータ生成プロセスと一貫していることを認識する必要があります。同じデータセットでの追加の統計的テストによって、これらの可能性を区別できるは思わない(ただし、さらに実験を行うことで確実に可能になる)。だから、トピックについて知られているものについては、ハード考えることは、ここで重要です。

あなたのような結果を生成する可能性がある別の潜在的な状況を指摘したいと思います:抑制。これは矢印図を使用して説明するのがより困難ですが、それらをわずかに拡張できる場合、次のように考えることができます。

enter image description here

この状況で重要なのは、が2つの部分、つまり関連のない(U)部分と関連する(R)部分で構成されていることです。サプレッサーと相関されるYが、非常によく、複数の回帰モデルの「重要」であることがあります。さらに、その他の変数は、サプレッサーまたはY自体と「有意に」相関する場合としない場合があります。さらに、変数Xは、サプレッサーまたはその他の変数のいずれかの役割を果たす可能性がありますOther VariableURSuppressorYOther VariableSuppressorYSuppressorOther Variable この状況では(したがって、この分野の知識に基づいて、基礎となるパターンが何であるかを考える必要があります)。

Rコードを読むことができるかどうかはわかりませんが、ここに私が手がけた例を示します。(この特定の例は、の役割を果たすXによりよく適合しますが、両方ともYと「有意に」相関していません。他の変数Yの間の相関を0に近づけて、他の記述をちょうどと一致させることができるはずです右の設定を行います。) SuppressorYOther VariableY

set.seed(888)                            # for reproducibility

S  =         rnorm(60, mean=0, sd=1.0)   # the Suppressor is normally distributed
U  = 1.1*S + rnorm(60, mean=0, sd=0.1)   # U (unrelated) is Suppressor plus error
R  =         rnorm(60, mean=0, sd=1.0)   # related part; normally distributed
OV = U + R                               # the Other Variable is U plus R
Y  = R +     rnorm(60, mean=0, sd=2)     # Y is R plus error

cor.test(S, Y)                           # Suppressor uncorrelated w/ Y
# t = 0.0283, df = 58, p-value = 0.9775
# cor 0.003721616 

cor.test(S, OV)                          # Suppressor correlated w/ Other Variable
# t = 8.655, df = 58, p-value = 4.939e-12
# cor 0.7507423

cor.test(OV,Y)                           # Other Var not significantly cor w/ Y
# t = 1.954, df = 58, p-value = 0.05553
# cor 0.2485251

summary(lm(Y~OV+S))                      # both Suppressor & Other Var sig in mult reg
# Coefficients:
#              Estimate Std. Error t value Pr(>|t|)   
# (Intercept)   0.2752     0.2396   1.148  0.25557   
# OV            0.7232     0.2390   3.026  0.00372 **
# S            -0.7690     0.3415  -2.251  0.02823 * 

ここでの私のポイントは、この状況があなたのデータの根底にあるということではありません。これが@jthetzelが示唆するオプションよりも多分少ないかどうかはわかりません。私はこれを思考の糧としてのみ提供しています。現在の結果を解釈するには、これらの可能性について考え、最も意味のあるものを決定する必要があります。選択を確認するには、慎重な実験が必要になります。


2
Excellent! Thank you. This serves as another good example of what could be happening in my data. Seems like I can only accept one answer, though...
Behacad

No problem, @Behacad, I think jthetzel deserves the check mark; I'm just happy to help.
gung - Reinstate Monica

7

Just some visualization that it is possible.

On picture (a) "normal" or "intuitive" regressional situation is shown. This pic is the same as for example found (and explained) here or here.

The variables are drawn as vectors. Angles between them (their cosines) are the variables' correlations. Y here designates the variable of predicted values (more often notated as Y^). Skew coordinate of its edge onto a predictor vector (skew projection, parallel to the other predictor) - notch b - is proportional to the regression coefficient of that predictor.

On pic (a), all three variables correlate positively, and both b1 and b2 are also positive regression coefficients. X1 and X2 "compete" in the regression, with the regression coefficients being their score in that contest.

enter image description here

On picture (b) shown is situation where predictor X1 correlates with Y positively, still it's regression coefficient is zero: the endpoint of the prediction Y projects at the origin of vector X1. Note that this fact coincides with that Y and X2 superimpose, which means that the predicted values absolutely correlate with that other predictor.

On picture (c) is the situation where X1 does not correlate with Y (their vectors are orthogonal), yet the regression coefficient of the predictor is not zero: it is negative (the projection falls behind X1 vector).

Data and analysis approximately corresponding to pic (b):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 1.203146  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955  .100612  .858597
 .970097 2.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192  .587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.310708  .396034
1.462036  .057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -.898084 -.838295

enter image description here

Data and analysis approximately corresponding to pic (c):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 -1.20315  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955 -.100612  .858597
 .970097 1.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192 -.587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.810708  .396034
1.462036 -.057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -1.26108 -.838295

enter image description here

Observe that X1 in the last example served as suppressor. Its zero-order correlation with Y is practically zero but its part correlation is much larger by magnitude, .224. It strengthened to some extent the predictive force of X2 (from .419, a would-be beta in simple regression with it, to beta .538 in the multiple regression).


Thanks! It still feels somewhat counterintuitive, but at least your pictures show it's feasible :)
JelenaČuklina

5

I agree with the previous answer but hope I can contribute by giving more details.

The correlation coefficient is just measuring the linear dependence between X and Y and it's not controlling for the fact that other variables might be involved in the relationship as well. In fact the correlation coefficient equals the slope parameter of the following regression scaled by x and y standard deviations :

Y=a+βx+u

where ρ^yx=β^σ^x/σ^y

But what happens if Y is generated by other variables as well, thus the real model is something like:

Y=a+βx+jαjzj+u

Under this real model, it becomes obvious that estimating the first one (only with x) will yield a biased β estimate as that model is omitting the zj regressors(this implies that ρ is also biased !). So your results are in line with the fact that the omitted variables are relevant. To deal with this issue , theory on correlation analysis provides the partial correlation coefficient (I'm sure you will find references on this) which basically calculates ρxy|z from the latter estimating equation that controls for zj.


ρ biased means that its value is unreliable, it could be anything from -1 to 1. If you accept to give an interpretation to it , then you are implicitly assuming your universe has 2 variables of interest only. If you suspect there might be others, why to calculate a bivariate ρ ? e.g. a universe must be defined before starting the analysis and yours is multivariate (>2) From that point of view, a bivariate analysis suffers from an omitted variables issue.
JDav
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.