線形回帰で標準化された説明変数を使用するタイミングと方法


37

線形回帰について2つの簡単な質問があります。

  1. 説明変数を標準化することが推奨されるのはいつですか?
  2. 標準化された値で推定が実行されたら、新しい値でどのように予測できますか(新しい値を標準化する方法)。

いくつかの参考文献が役立ちます。


3
ソフトウェアの記述が適切であれば、数値精度の問題を回避するために内部で自動的に標準化されます。特別なことをする必要はないはずです。
whuber

1
次のスレッドが関連しており、興味深いことに注意してください:データをいつ中央に配置し、いつ標準化する必要があるか?
GUNG -復活モニカ

回答:


26

用語は議論の余地のあるトピックですが、「説明」変数、「予測」変数と呼ぶことを好みます。

予測変数を標準化する場合:

  • 多重線形回帰を実行するための多くのソフトウェアは、予測子と応答変数を手動で標準化する標準化されていない係数と同等の標準化された係数を提供します(もちろん、予測子の標準化のみについて話しているように聞こえます)。
  • 私の意見では、標準化は回帰方程式をより意味のあるものにするための便利なツールです。これは、変数のメトリックが回帰方程式を解釈する人にとって意味を欠いている場合に特に当てはまります(たとえば、任意のメトリックの心理的スケール)。(他のより洗練されたアプローチは、相対的な重要性を評価するために存在するが、また、予測変数の相対的重要性の比較を容易にするために使用することができます議論のための私のポストを参照してください)。メトリックが回帰式を解釈する人にとって意味がある場合、標準化されていない係数は多くの場合より有益です。
  • また、標準化された変数に依存することは、変数のメトリックを読者にとってより意味のあるものにする方法について考えていないという事実から注意をそらすかもしれないと思います。

  • アンドリュー・ゲルマンは、このトピックについてかなり述べています。たとえば、標準化に関する彼のページと、特にGelman(2008、Stats Med、FREE PDF)を参照してください

標準化に基づく予測:

  • 標準化された回帰係数を予測に使用しません。
  • 元のサンプルの予測変数の平均と標準偏差がわかっている場合、いつでも標準化係数を非標準化係数に変換できます。

3
+1ですが、予測に標準化されていない回帰係数を使用しないのはなぜですか?
ワンストップ

1
(+1)変数の重要度の評価については、relaimpo Rパッケージが良い仕事をしていると思います(ただし、「回帰への現代的なアプローチの開始」を参照)。また、支配分析に関するDavid V. Budescuの素晴らしい論文もありました(リクエストに応じて自由に利用できます)。
chl

@onestepおっと。打ち間違え。今変更されました。
ジェロミーアングリム

1
@Jeromy、標準化された回帰係数を予測に使用しない理由について詳しく説明してください。
マイケルビショップ

3
@MichaelBishop回帰モデルを使用して、サンプルデータから予測するためにそれを適用するコンテキストを考えています。一般に、標準化されていない予測が必要です。また、平均値と標準偏差はサンプル間で変化する可能性があります。したがって、標準化されていない予測変数を使用すると、より意味のある結果が得られます。
ジェロミーアングリム

-4

先ほど書いた優れた回答と重複する可能性のある短い回答で答えさせてください。

  1. 常に標準化します。これにより、回帰、特に回帰の係数をより適切に解釈できます。

  2. 標準化されていない新しいデータについては、最大化や最小化など、標準化する各変数に使用した値を保存し、前と同じように穴データセットで行ったのと同じ変換を行うことをお勧めします単一インスタンス。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.