あなたが尋ねているトピックは多重共線性です。multicollinearityタグの下に分類されたCVのスレッドの一部を読むことができます。特に上記にリンクされている @whuberの答えもあなたの時間の価値があります。
「2つの予測子が相関し、両方がモデルに含まれている場合、一方は重要ではない」という主張は正しくありません。変数の実際の効果がある場合、変数が重要になる確率は、効果の大きさ、誤差分散の大きさ、変数自体の分散、データ量など、いくつかのことの関数ですあなたが持っている、およびモデル内の他の変数の数。変数が相関しているかどうかも関係しますが、これらの事実を無効にすることはありません。次の簡単なデモを検討してくださいR
。
library(MASS) # allows you to generate correlated data
set.seed(4314) # makes this example exactly replicable
# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20, mu=c(0,0), Sigma=rbind(c(1.00, 0.70), # r=.70
c(0.70, 1.00)) )
X1 = mvrnorm(n=100, mu=c(0,0), Sigma=rbind(c(1.00, 0.87), # r=.87
c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95), # r=.95
c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20) # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100) # but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000) # related to the 1st
# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X0[, 1] 0.6614 0.3612 1.831 0.0847 . # neither variable
# X0[, 2] 0.4215 0.3217 1.310 0.2075 # is significant
summary(lm(y1~X1[,1]+X1[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X1[, 1] 0.57987 0.21074 2.752 0.00708 ** # only 1 variable
# X1[, 2] 0.25081 0.19806 1.266 0.20841 # is significant
summary(lm(y2~X2[,1]+X2[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X2[, 1] 0.60783 0.09841 6.177 9.52e-10 *** # both variables
# X2[, 2] 0.39632 0.09781 4.052 5.47e-05 *** # are significant
2つの変数間の相関は、最初の例で最も低く、3番目の例で最も高くなりますが、最初の例ではどちらの変数も重要ではなく、最後の例では両方とも有意です。効果の大きさは3つすべてのケースで同一であり、変数と誤差の分散は類似している必要があります(これらは確率的ですが、同じ分散の母集団から得られます)。ここで見られるパターンは、主に各ケースで操作することによるものです。 N
質問を解決するために理解すべき重要な概念は、分散インフレーション係数(VIF)です。VIFは、変数がモデル内の他のすべての変数と完全に無相関だった場合に、回帰係数の分散がどれだけ大きいかを示します。問題の変数が無相関の場合、VIFはVIF = 1であることに注意してください。VIFの簡単な理解は次のとおりです。モデル(たとえば)をモデル内の他のすべての変数(たとえば)から予測し、複数のを取得できます。用VIFあろう。のVIF がだったとしましょうX 2 R 2 X 1 1 /(1 − R 2)X 1 10 X 1 10 × X 1バツ1バツ2R2バツ11 /(1 − R2)バツ110(多くの場合、過度の多重共用の閾値と考えられ)、その後の回帰係数のサンプリング分布の分散なりならば、それはあったであろうよりも大きな完全にモデル内の他のすべての変数と相関していました。 バツ110 ×バツ1
両方の相関変数と1つだけを含めるとどうなるかを考えるのは似ていますが、上記のアプローチよりも少し複雑です。これは、変数を含めないということは、モデルが使用する自由度が低くなり、残差分散とそれから計算されるすべて(回帰係数の分散を含む)が変わるためです。さらに、含まれていない変数が実際に応答に関連付けられている場合、その変数による応答の分散は残差分散に含まれ、そうでない場合よりも大きくなります。したがって、いくつかの事柄が同時に変化し(変数は別の変数と相関しているかどうか、および残差分散)、他の変数をドロップ/インクルードする正確な効果は、それらのトレードオフに依存します。
VIFを理解した上で、質問に対する答えを以下に示します。
- モデル内の他の変数と相関している場合、回帰係数のサンプリング分布の分散は(VIFの係数によって)大きくなるため、p値はそうでない場合よりも高くなります(つまり、有意性が低くなります) 。
- すでに説明したように、回帰係数の分散は大きくなります。
- 一般的に、これはモデルを解かない限り知ることは困難です。通常、2つのうち1つだけが有意である場合、 2変量相関がより強いものになります。 Y
- 予測値とその分散がどのように変化するかは非常に複雑です。それは、変数がどれだけ強く相関しているか、およびデータ内の応答変数に関連付けられているように見える方法に依存します。この問題については、ここで私の答えを読むのに役立つかもしれません:重回帰の他の変数を「制御する」と「無視する」の間に違いはありますか?