データの線形回帰とスケーリング


10

次のプロットは、線形回帰で得られた係数を示しています(mpgターゲット変数として、その他すべてを予測子として)。

データをスケーリングする場合としない場合の両方のmtcarsデータセット(ここここ)の場合:

ここに画像の説明を入力してください

これらの結果をどのように解釈しますか?変数hpdispは、データがスケーリングされている場合にのみ重要です。あるamqsec同様に重要であるかamよりも重要qsec?どちらの変数が重要な決定要因mpgか?

あなたの洞察をありがとう。


よろしければ、いくつかの異なるモデルを実行して、どの機能が実際に重要かをクロスチェックできますか?データのスケーリングは、さまざまな列に非常に異なるスケールがあり、それらがプロット(ナイスプロット)と大きく異なる場合に行われます。スケーリングを行わなかった場合と同じように、スケーリングによってモデルがデータに関する実際のIサイトを見つけることができたことは明らかです。モデルは...どんなオプションがありませんが、何を予想していることも少し高い数字であることを提供する大規模なスケールを持つ変数に多くの重量を与えるために
アーディティヤ

プロットについてのコメントをありがとう。「いくつかの異なるモデルを実行する」という意味がわかりません。ニューラルネットワークなどの他の手法を使用して、どの機能が本当に重要であるかを見つけて、線形回帰の結果と比較できるようにすることはできますか。
rnso

申し訳ありませんが不明瞭であるために、私は何を意味して..ツリーベースなどのような異なるmlのアルゴリズムを試してみるとそのすべての機能の重要度を比較している
アーディティヤ

回答:


4

データがスケーリングされていない場合、hpおよびdispの係数は低く、データがスケーリングされている場合は高いという事実は、これらの変数が従属変数の説明に役立ちますが、その大きさが大きいため、スケーリングされていない場合の係数は低くなければなりません。

「重要性」に関して、変数の大きさも関連しているため、スケーリングされた場合の係数の絶対値は、スケーリングされていない場合よりも重要性の良い尺度であると言えます。ない。

もちろん、より重要な変数はwtです。


4

この場合、標準エラーなしに重要性について話すことはできません。それらは変数と係数に合わせてスケーリングされます。さらに、各係数はモデル内の他の変数を条件とし、共線性は実際にはhpとdispの重要性を高めているようです。

変数を再スケーリングしても、結果の重要性はまったく変わりません。実際、回帰を再実行すると(変数をそのまま使用し、平均を差し引いて標準誤差で除算することで正規化)、各係数推定(定数を除く)はスケーリング前とまったく同じt-statを持ち、全体的な有意性のF検定はまったく同じままでした。

つまり、すべての変数がゼロの平均と1の分散を持つようにスケーリングされている場合でも、各回帰係数の標準誤差のサイズは1つではないので、標準化された回帰は、依然として重要性について誤解を招きます。

David Masipが説明したように、係数の見かけのサイズは、データポイントの大きさと逆の関係にあります。しかし、dispとhpの係数が大きい場合でも、それらはゼロと大幅に異なりません。

実際、hpとdispは相互に高度に相関しているため(r = .79)、これらの係数の標準誤差は、共線性が高いため、係数の大きさに対して特に高くなります。この回帰では、奇妙な相殺を行っています。そのため、1つは正の係数を持ち、もう1つは負の係数を持ちます。過剰適合の場合のようで、意味がありません。

どの変数がmpgの最も変動を説明するかを確認する良い方法は、(調整された)R-2乗です。x変数の変動によって説明されるのは、文字通りyの変動のパーセンテージです。(調整済みR二乗には、方程式のx変数を追加するたびにわずかなペナルティが含まれ、過剰適合を相殺します。)

他の変数と照らし合わせて何が重要かを確認する良い方法は、回帰からその変数を省いたときの調整済みR-2乗の変化を確認することです。その変化は、他の変数を一定に保持した後の、その因子が説明する従属変数の分散のパーセンテージです。(正式には、除外された変数がF検定で重要かどうかテストできます。これは、変数選択の段階的回帰がどのように機能するかです。)

これを説明するために、mpgを予測して、変数ごとに単一の線形回帰を個別に実行しました。変数wtだけでは、mpgの変動の75.3%が説明されます。単一の変数ではこれ以上説明できません。ただし、他の変数の多くはwtと相関関係があり、同じ変動のいくつかを説明しています。(ロバストな標準誤差を使用したため、標準誤差と有意性の計算にわずかな違いが生じる可能性がありますが、係数やR-2乗には影響しません。)

+------+-----------+---------+----------+---------+----------+-------+
|      |   coeff   |   se    | constant |   se    | adj R-sq | R-sq  |
+------+-----------+---------+----------+---------+----------+-------+
| cyl  | -0.852*** | [0.110] |        0 | [0.094] |    0.717 | 0.726 |
| disp | -0.848*** | [0.105] |        0 | [0.095] |    0.709 | 0.718 |
| hp   | -0.776*** | [0.154] |        0 | [0.113] |    0.589 | 0.602 |
| drat |  0.681*** | [0.123] |        0 | [0.132] |    0.446 | 0.464 |
| wt   | -0.868*** | [0.106] |        0 | [0.089] |    0.745 | 0.753 |
| qsec |  0.419**  | [0.136] |        0 | [0.163] |    0.148 | 0.175 |
| vs   |  0.664*** | [0.142] |        0 | [0.134] |    0.422 | 0.441 |
| am   |  0.600*** | [0.158] |        0 | [0.144] |    0.338 | 0.360 |
| gear |  0.480*   | [0.178] |        0 | [0.158] |    0.205 | 0.231 |
| carb | -0.551**  | [0.168] |        0 | [0.150] |    0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+

すべての変数が一緒にある場合、R二乗は0.869で、調整済みR二乗は0.807です。したがって、wtを結合するためにさらに9つの変数を投入すると、バリエーションのさらに11%が説明されます(オーバーフィッティングを修正した場合は、さらに5%増加します)。(多くの変数は、wtが行うmpgと同じ変動の一部を説明しています。)そして、その完全なモデルでは、p値が20%未満の唯一の係数は、p = 0.089でのwtです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.