線形回帰では、相互作用項のみに関心があるのに、なぜ2次項を含める必要があるのでしょうか。


10

以下のために、私は、線形回帰モデルに興味を持っていたと

Yi=β0+β1x1+β2x2+β3x1x2
、私は2つの共変量間の相互作用が効果を持っているかどうかを確認したいと思いますので、 Yに

教授の講義ノート(私は連絡をとっていません)には、次のように記載されています。即ち、

Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22
、回帰に含まれるべきです。

相互作用のみに関心があるのに、なぜ2次用語を含める必要があるのですか?


7
モデルにがある場合、x 1x 2を含める必要があります。ただし、x 2 1およびx 2 2はオプションです。x1x2x1x2x12x22
user158565

6
あなたの教授の意見は珍しいようです。「すべき」は普遍的な要件ではないので、専門的な背景や一連の経験に由来する可能性があります。stats.stackexchange.com/questions/11009が興味深いかもしれません。
whuber

x1x2

@whuberこんにちは!リンクをありがとう!主効果を含めるのは理にかなっていると思いますが、2次の項を含める必要があるまで拡張するのに苦労します。// user158565上記のリンクで答えたと思います。ありがとうございます。
fool126

データへのリンクを投稿していただけませんか?
James Phillips

回答:


8

それは推論の目的に依存します。たとえば因果関係で相互作用が存在するかどうかを推測したい場合(または、より一般的には、相互作用係数を解釈したい場合)、教授からのこの推奨は理にかなっており、関数形式の誤った指定は、相互作用に関する誤った推論につながる可能性があるという事実。

x1x2yx1x1x2

set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))

Call:
lm(formula = y ~ x1 + x2 + x1:x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.7781 -0.8326 -0.0806  0.7598  7.7929 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.30116    0.04813   6.257 5.81e-10 ***
x1           1.03142    0.05888  17.519  < 2e-16 ***
x2           1.01806    0.03971  25.638  < 2e-16 ***
x1:x2        0.63939    0.02390  26.757  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared:  0.7935,    Adjusted R-squared:  0.7929 
F-statistic:  1276 on 3 and 996 DF,  p-value: < 2.2e-16

x12

summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))   

Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4574 -0.7073  0.0228  0.6723  3.7135 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.0419958  0.0398423  -1.054    0.292    
x1           1.0296642  0.0458586  22.453   <2e-16 ***
x2           1.0017625  0.0309367  32.381   <2e-16 ***
I(x1^2)      1.0196002  0.0400940  25.430   <2e-16 ***
x1:x2       -0.0006889  0.0313045  -0.022    0.982    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared:  0.8748,    Adjusted R-squared:  0.8743 
F-statistic:  1739 on 4 and 995 DF,  p-value: < 2.2e-16

もちろん、この推論は二次項だけでなく、一般に関数形の誤指定にも当てはまります。ここでの目標は、条件付き期待関数を適切にモデル化して相互作用を評価することです。線形回帰によるモデリングに限定する場合は、これらの非線形項を手動で含める必要があります。ただし、代わりに、たとえばカーネルリッジ回帰などのより柔軟な回帰モデリングを使用することもできます。


結局、@ CarlosCinelliに感謝します。関数形の潜在的な誤指定を説明するために、同程度の用語を含めるべきであり、回帰がどの用語が重要であるかを判断させるべきですか?
fool126

3
@KevinCここでの主な質問は次のとおりです。相互作用の用語を解釈しますか?その場合、関数形式の誤指定が本当の問題です。二次項を追加することは、非線形性を捕捉する1つの単純な方法にすぎませんが、一般的な問題は、条件付き期待関数を適切にモデル化することです。
Carlos Cinelli、2018

1
rm(list=ls())ここに投稿されたコードには含めないでください!人々がコードをコピー&ペーストして実行するだけなら、彼らは驚くかもしれません...私は今のところそれを削除しました。
kjetil b halvorsen 2018

3

X1X2

最初のモデルは、次のように再表現できます。

Y=β0+(β1+β3X2)X1+β2X2+ϵ,

X1YX2X1X2X1YX2

2番目のモデルは、次のように再表現できます。

Y=β0+(β1+β3X2)X1+β4X12+β2X2+β5X22+ϵ,

X1YX2X1X12X12X2X1X2

X1YX2

X1X2X1X2X12X22

一貫性を保つために使用した表記を簡略化し、両方のモデルでエラー項を明示的にしたことに注意してください。


2
こんにちは@IsbellaGhement、ご説明ありがとうございます。要約すると、相互作用項を含める場合は2次項を追加する必要があるという「ルール」は実際にはありません。結局のところ、モデルについて行っている仮定と分析結果(つまり、残差プロット)に戻ります。これは正しいです?再度、感謝します :)!
fool126 2018

2
そうです、ケビン!各データセットは異なり、また異なる質問に答えることを目的としているため、「ルール」はありません。そのため、そのデータセットに適合する各モデルは異なる仮定を意味し、モデルの結果を信頼するためにはデータによってサポートされる必要があることを認識することが重要です。モデル診断プロット(たとえば、残差と近似値のプロット)は、データがモデルの仮定をサポートしている場合、そのデータをどの程度(ある場合)検証するのに役立ちます。
Isabella Ghement

1
@KevinC:すごい!ケビン、あなたにも幸せな休日を!☃🎉🎁🎈
イザベラGhement
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.