回答:
変数のシフト/スケーリングは、応答との相関には影響しません
これが正しい理由を確認するために、と間の相関がであると仮定します。次に、との相関は
これは、相関の定義と3つの事実から生じます。
したがって、線形回帰係数は変数間の相関関係に関連しているため、モデルの適合(または適合値など)に関して、変数をシフトまたはスケーリング(たとえば、同じスケールに配置)してもモデルは変わりません。予測子を変換することを選択した場合、出力を解釈するときに注意する必要がある回帰係数のスケールのみが変更されます。
編集:上記のあなたは普通の回帰について話していることを前提としているとのインターセプト。これに関連するいくつかのポイント(@cardinalに感謝):
変数を変換すると切片が変化する可能性があり、@ cardinalがコメントで指摘しているように、モデルから切片を省略した場合、変数をシフトすると係数が変化しますが、正当な理由(たとえば、この回答を参照)。
何らかの方法で係数を正則化している場合(例えば、なげなわ、リッジ回帰)、センタリング/スケーリングはフィットに影響します。たとえば、(リッジ回帰のペナルティ)にペナルティを課している場合、すべての変数が最初に同じスケールになっていない限り、標準化後に同等の近似を回復できません。同じペナルティを回復する定数倍数はありません。
研究者が予測変数を変換したい場合/理由について
一般的な状況(@Paulによる次の回答で説明)は、研究者が予測子を標準化して、すべての係数が同じスケールになるようにすることです。その場合、予測子の数値の大きさが標準化されると、ポイント推定のサイズによって、どの予測子が最大の効果を持つかを大まかに知ることができます。
研究者が非常に大きな変数をスケーリングすることを好むもう1つの理由は、回帰係数が極端に小さなスケールにならないようにするためです。たとえば、国の人口規模が犯罪率に及ぼす影響を確認したい場合(より良い例は考えられません)、係数を元の単位ではなく、数百万単位で測定することができます。ようにます。
いわゆる「正規化」は、ほとんどの回帰手法に共通のルーチンです。2つの方法があります。
線形回帰は変数の範囲に非常に敏感であるため、依存関係に関する事前の知識がなく、すべての変数が相対的に重要であると予想される場合は、通常、すべての変数を正規化することをお勧めします。
同じことが応答変数にも当てはまりますが、応答変数にはそれほど重要ではありません。
なぜ正規化または標準化を行うのですか?ほとんどの場合、モデル内のさまざまな変数の相対的な影響を判断するためです。これは、すべての変数が同じ単位内にある場合に達成できます。
お役に立てれば!
x1,x2,y
:これら二つのコマンドsummary(lm(y~x1+x2))$r.sq
とsummary(lm(y~scale(x1)+scale(x2)))$r.sq
-同等のフィット感を示す、同じ値を与える-あなたは係数を標準化していない、あなたがないときの値。