相互作用項が含まれる場合にのみ問題となる共線性診断


26

米国の郡で回帰分析を実行し、「独立」変数の共線性をチェックしています。Belsley、Kuh、およびWelschの回帰診断では、Condition IndexおよびVariance Decomposition Proportionsを調べることを推奨しています。

library(perturb)
## colldiag(, scale=TRUE) for model with interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09
1    1.000 0.000       0.000     0.000   0.000    0.001             0.002        0.003        0.002       0.002      0.001         0.000            
2    3.130 0.000       0.000     0.000   0.000    0.002             0.053        0.011        0.148       0.231      0.000         0.000            
3    3.305 0.000       0.000     0.000   0.000    0.000             0.095        0.072        0.351       0.003      0.000         0.000            
4    3.839 0.000       0.000     0.000   0.001    0.000             0.143        0.002        0.105       0.280      0.009         0.000            
5    5.547 0.000       0.002     0.000   0.000    0.050             0.093        0.592        0.084       0.005      0.002         0.000            
6    7.981 0.000       0.005     0.006   0.001    0.150             0.560        0.256        0.002       0.040      0.026         0.001            
7   11.170 0.000       0.009     0.003   0.000    0.046             0.000        0.018        0.003       0.250      0.272         0.035            
8   12.766 0.000       0.050     0.029   0.015    0.309             0.023        0.043        0.220       0.094      0.005         0.002            
9   18.800 0.009       0.017     0.003   0.209    0.001             0.002        0.001        0.047       0.006      0.430         0.041            
10  40.827 0.134       0.159     0.163   0.555    0.283             0.015        0.001        0.035       0.008      0.186         0.238            
11  76.709 0.855       0.759     0.796   0.219    0.157             0.013        0.002        0.004       0.080      0.069         0.683            

## colldiag(, scale=TRUE) for model without interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct
1    1.000 0.000       0.001     0.001   0.000    0.001             0.003        0.004        0.003       0.003      0.001        
2    2.988 0.000       0.000     0.001   0.000    0.002             0.030        0.003        0.216       0.253      0.000        
3    3.128 0.000       0.000     0.002   0.000    0.000             0.112        0.076        0.294       0.027      0.000        
4    3.630 0.000       0.002     0.001   0.001    0.000             0.160        0.003        0.105       0.248      0.009        
5    5.234 0.000       0.008     0.002   0.000    0.053             0.087        0.594        0.086       0.004      0.001        
6    7.556 0.000       0.024     0.039   0.001    0.143             0.557        0.275        0.002       0.025      0.035        
7   11.898 0.000       0.278     0.080   0.017    0.371             0.026        0.023        0.147       0.005      0.038        
8   13.242 0.000       0.001     0.343   0.006    0.000             0.000        0.017        0.129       0.328      0.553        
9   21.558 0.010       0.540     0.332   0.355    0.037             0.000        0.003        0.003       0.020      0.083        
10  50.506 0.989       0.148     0.199   0.620    0.393             0.026        0.004        0.016       0.087      0.279        

?HH::vif 5を超えるVIFには問題があることを示唆しています。

library(HH)
## vif() for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         8.378646         16.329881          1.653584          2.744314          1.885095          1.471123          1.436229          1.789454 
    elderly09_pct inc09_10k:unins09 
         1.547234         11.590162 

## vif() for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.859426          2.378138          1.628817          2.716702          1.882828          1.471102          1.404482          1.772352 
    elderly09_pct 
         1.545867 

一方、ジョンフォックスの回帰診断では、VIFの平方根を調べることを推奨しています。

library(car)
## sqrt(vif) for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         2.894589          4.041025          1.285917          1.656597          1.372987          1.212898          1.198428          1.337705 
    elderly09_pct inc09_10k:unins09 
         1.243879          3.404433 
## sqrt(vif) for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.363608          1.542121          1.276251          1.648242          1.372162          1.212890          1.185108          1.331297 
    elderly09_pct 
         1.243329 

最初の2つのケース(明確なカットオフが提案されている場合)では、相互作用項が含まれている場合にのみモデルに問題があります。

相互作用項を含むモデルは、この時点まで私の好みの仕様でした。

このデータの奇抜さを考えると、2つの質問があります。

  1. 相互作用項は常にデータの共線性を悪化させますか?
  2. 相互作用項のない2つの変数はしきい値を超えていないため、相互作用項のあるモデルを使用しても問題ありません。具体的には、これが大丈夫だと思う理由は、King、Tomz、Wittenberg(2000)メソッドを使用して係数(負の二項モデル)を解釈し、一般に他の係数を平均で保持し、独立して共同で移動inc09_10kしたときの従属変数の予測に何が起こるかを解釈しunins09ます。

回答:


31

はい、これは通常、非中心の相互作用の場合です。2つの独立変数とそれらの「相互作用」の相関関係に何が起こるかを簡単に確認

set.seed(12345)
a = rnorm(10000,20,2)
b = rnorm(10000,10,2)
cor(a,b)
cor(a,a*b)

> cor(a,b)
[1] 0.01564907
> cor(a,a*b)
[1] 0.4608877

そして、それらを中央に置くと:

c = a - 20
d = b - 10
cor(c,d)
cor(c,c*d)

> cor(c,d)
[1] 0.01564907
> cor(c,c*d)
[1] 0.001908758

ちなみに、最初にセンタリングせずに多項式項()を含めても同じことが起こります。バツ バツ2 

それで、あなたはあなたのペアでそのショットを与えることができます。


センタリングが役立つ理由について-しかし、共分散の定義に戻りましょう

CovバツバツY=E[バツEバツバツYEバツY]=E[バツμバツバツYμバツy]=E[バツ2YバツμバツyバツYμバツ+μバツμバツy]=E[バツ2Y]E[バツ]μバツyE[バツY]μバツ+μバツμバツy

XとYの独立さえ与えられた

=E[バツ2]E[Y]μバツμバツμyμバツμyμバツ+μバツμバツμy=σバツ2+μバツ2μyμバツ2μy=σバツ2μy

これは、おそらく完全に独立したとがないため、また2つの説明変数間の相関が回帰で常に多重共線性の問題を引き起こすとは限らないため、回帰問題とは直接関係しません。しかし、2つの非中心独立変数間の相互作用が相関関係をどのように引き起こし、その相関関係多重共線性の問題を引き起こす可能性あるかを示しています。YバツY


私にとって直感的に、非中心変数が相互作用するということは、が大きい場合、がに関係なく絶対スケールでも大きくなることを意味するため、とはについても同様に相関します。X Y Y X X Y YバツバツYYバツバツYY


興味深い、ありがとう。センタリングが重要な理由について説明や引用はありますか?
アリB.フリードマン

現状ではこの答えは報奨金全体に値するとは思いませんが、半分報奨金を与えたいと思います。確かに、2回目のアップ投票がない限り、それは起こりません:-/。
アリB.フリードマン

1
@ AriB.Friedman、あなたは(正確に)報奨金の半分を与えるオプションはありません。報奨金を授与することできません(どちらの場合も担当者を失いますが)、この投稿にはおそらく報奨金の半分が自動的に授与されます(ヘルプページの関連セクションを参照)。しかし、なぜこの答えは報奨に値しないのでしょうか?アフィンはまさにここ(+1)です。
GUNG -復活モニカ

@gung事前編集を探していました。今間違いなくそれに値する。ありがとう@Affine!半分の賞金の部分に関しては>=、賞金が手動で授与されない場合、+ 2の答えは半分の賞金を得るという私の理解です。
アリB.フリードマン

@ AriB.Friedman、その通りですが、私がコメントする前に(&賛成、および他の誰かもそうしました)、彼には2+の賛成票がありませんでした。
GUNG -復活モニカ

0

このトピックに関する次の出版物が役立つことがわかりました。

Robinson&Schumacker(2009):相互作用効果:センタリング、分散インフレーション係数、および解釈の問題

'回帰方程式の係数に対する予測子スケーリングの効果(中心解対非中心解および高次相互作用効果(3方向相互作用;連続的効果による分類)は、AikenおよびWest(1991)によって考え抜かれてカバーされています。変数が中心にない場合、相互作用項を含む回帰方程式に導入されます。

Afshartous&Preston(2011):センタリングを伴う相互作用モデルの主要な結果

「変数のセンタリングを採用する動機には、係数の解釈可能性の向上と、多重共線性に関連する推定の数値不安定性の低減が含まれます。」

Aiken and West(1991)も明らかにこのトピックをカバーしていますが、私は彼らの本を持っていません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.