次のプロットは、線形回帰で得られた係数を示しています(mpg
ターゲット変数として、その他すべてを予測子として)。
データをスケーリングする場合としない場合の両方のmtcarsデータセット(こことここ)の場合:
これらの結果をどのように解釈しますか?変数hp
とdisp
は、データがスケーリングされている場合にのみ重要です。あるam
とqsec
同様に重要であるかam
よりも重要qsec
?どちらの変数が重要な決定要因mpg
か?
あなたの洞察をありがとう。
次のプロットは、線形回帰で得られた係数を示しています(mpg
ターゲット変数として、その他すべてを予測子として)。
データをスケーリングする場合としない場合の両方のmtcarsデータセット(こことここ)の場合:
これらの結果をどのように解釈しますか?変数hp
とdisp
は、データがスケーリングされている場合にのみ重要です。あるam
とqsec
同様に重要であるかam
よりも重要qsec
?どちらの変数が重要な決定要因mpg
か?
あなたの洞察をありがとう。
回答:
この場合、標準エラーなしに重要性について話すことはできません。それらは変数と係数に合わせてスケーリングされます。さらに、各係数はモデル内の他の変数を条件とし、共線性は実際にはhpとdispの重要性を高めているようです。
変数を再スケーリングしても、結果の重要性はまったく変わりません。実際、回帰を再実行すると(変数をそのまま使用し、平均を差し引いて標準誤差で除算することで正規化)、各係数推定(定数を除く)はスケーリング前とまったく同じt-statを持ち、全体的な有意性のF検定はまったく同じままでした。
つまり、すべての変数がゼロの平均と1の分散を持つようにスケーリングされている場合でも、各回帰係数の標準誤差のサイズは1つではないので、標準化された回帰は、依然として重要性について誤解を招きます。
David Masipが説明したように、係数の見かけのサイズは、データポイントの大きさと逆の関係にあります。しかし、dispとhpの係数が大きい場合でも、それらはゼロと大幅に異なりません。
実際、hpとdispは相互に高度に相関しているため(r = .79)、これらの係数の標準誤差は、共線性が高いため、係数の大きさに対して特に高くなります。この回帰では、奇妙な相殺を行っています。そのため、1つは正の係数を持ち、もう1つは負の係数を持ちます。過剰適合の場合のようで、意味がありません。
どの変数がmpgの最も変動を説明するかを確認する良い方法は、(調整された)R-2乗です。x変数の変動によって説明されるのは、文字通りyの変動のパーセンテージです。(調整済みR二乗には、方程式のx変数を追加するたびにわずかなペナルティが含まれ、過剰適合を相殺します。)
他の変数と照らし合わせて何が重要かを確認する良い方法は、回帰からその変数を省いたときの調整済みR-2乗の変化を確認することです。その変化は、他の変数を一定に保持した後の、その因子が説明する従属変数の分散のパーセンテージです。(正式には、除外された変数がF検定で重要かどうかをテストできます。これは、変数選択の段階的回帰がどのように機能するかです。)
これを説明するために、mpgを予測して、変数ごとに単一の線形回帰を個別に実行しました。変数wtだけでは、mpgの変動の75.3%が説明されます。単一の変数ではこれ以上説明できません。ただし、他の変数の多くはwtと相関関係があり、同じ変動のいくつかを説明しています。(ロバストな標準誤差を使用したため、標準誤差と有意性の計算にわずかな違いが生じる可能性がありますが、係数やR-2乗には影響しません。)
+------+-----------+---------+----------+---------+----------+-------+
| | coeff | se | constant | se | adj R-sq | R-sq |
+------+-----------+---------+----------+---------+----------+-------+
| cyl | -0.852*** | [0.110] | 0 | [0.094] | 0.717 | 0.726 |
| disp | -0.848*** | [0.105] | 0 | [0.095] | 0.709 | 0.718 |
| hp | -0.776*** | [0.154] | 0 | [0.113] | 0.589 | 0.602 |
| drat | 0.681*** | [0.123] | 0 | [0.132] | 0.446 | 0.464 |
| wt | -0.868*** | [0.106] | 0 | [0.089] | 0.745 | 0.753 |
| qsec | 0.419** | [0.136] | 0 | [0.163] | 0.148 | 0.175 |
| vs | 0.664*** | [0.142] | 0 | [0.134] | 0.422 | 0.441 |
| am | 0.600*** | [0.158] | 0 | [0.144] | 0.338 | 0.360 |
| gear | 0.480* | [0.178] | 0 | [0.158] | 0.205 | 0.231 |
| carb | -0.551** | [0.168] | 0 | [0.150] | 0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+
すべての変数が一緒にある場合、R二乗は0.869で、調整済みR二乗は0.807です。したがって、wtを結合するためにさらに9つの変数を投入すると、バリエーションのさらに11%が説明されます(オーバーフィッティングを修正した場合は、さらに5%増加します)。(多くの変数は、wtが行うmpgと同じ変動の一部を説明しています。)そして、その完全なモデルでは、p値が20%未満の唯一の係数は、p = 0.089でのwtです。