3変数で構成される多変数(複数の独立変数)回帰があるとします。これらの各変数には、所定の係数があります。4番目の変数を導入して回帰を再実行することにした場合、3つの元の変数の係数は変わりますか?
より広く:多変数(複数の独立変数)回帰では、特定の変数の係数は別の変数の係数の影響を受けますか?
3変数で構成される多変数(複数の独立変数)回帰があるとします。これらの各変数には、所定の係数があります。4番目の変数を導入して回帰を再実行することにした場合、3つの元の変数の係数は変わりますか?
より広く:多変数(複数の独立変数)回帰では、特定の変数の係数は別の変数の係数の影響を受けますか?
回答:
回帰モデル(例えば内のパラメータ推定値β iが変数、場合)に変更しますXのjは、あるモデルに追加されます。
上記のいずれかが相関していない場合、新しい変数が追加されても推定ベータは変更されません。それらが母集団で無相関であるかどうか(すなわち、、またはρ (X j、Y ) = 0)は無関係であることに注意してください。重要なのは、両方のサンプル相関が正確に0であることです。変数が設計により相関しないように操作された実験データで作業している場合を除き、これは実際には基本的には決して起こりません。
また、パラメーターの変化量はそれほど意味がないかもしれません(少なくとも部分的には理論に依存します)。さらに、それらが変更できる量は、上記の2つの相関の大きさの関数です。
別の注意として、この現象を「特定の変数の係数が別の変数の係数の影響を受けている」と考えるのは実際には正しくありません。互いに影響を与えているのはベータ版ではありません。この現象は、統計ソフトウェアが勾配パラメーターを推定するために使用するアルゴリズムの自然な結果です。がX iとX jの両方によって引き起こされ、それらが互いに相関している状況を想像してください。X iのみがモデル内にある場合、X jに起因するYの変動の一部は、不適切にX iに起因します。ます。これは、がバイアスされるます。これは、省略された変数biasと呼ばれます。
係数が変化しないことは数学的には可能ですが、すべての独立変数が互いに独立していても、実際のデータにまったく変化がないことはほとんどありません。しかし、これが当てはまる場合、(インターセプト以外の)変更は0になる傾向があります。
set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)
しかし、現実の世界では、独立変数はしばしば互いに関連しています。この場合、方程式に4番目の変数を追加すると、他の係数が変更される場合があります。
次に、可能な相互作用があります....しかし、それは別の質問です。
一般的に、はい、変数を追加すると、ほとんどの場合、以前の係数が変更されます。
実際、これは本質的にシンプソンのパラドックスの原因であり、共変量が省略されているために係数が逆符号でさえ変化する可能性があります。
それが起こらないようにするには、新しい変数が以前の変数と直交している必要があります。これは、計画された実験でよく起こりますが、独立変数のパターンが計画されていないデータでは起こりそうにありません。
multivariable
ます複数の独立変数(「重回帰」)または複数の従属変数(「多変量回帰」または「MAN(C)OVA」)を意味ですか?