機能が関連付けられている場合、LassoまたはElasticNetがRidgeよりも優れている理由


16

150個の機能のセットがあり、それらの多くは互いに高度に相関しています。私の目標は、範囲が1〜8の離散変数の値を予測することです。サンプルサイズは550で10倍の交差検定を使用しています。

知る限りでは、正則化方法(Lasso、ElasticNet、Ridge)の中で、Ridgeは機能間の相関がより厳密です。そのため、Ridgeを使用すると、より正確な予測が得られると予想していました。ただし、私の結果は、LassoまたはElasticの平均絶対誤差が約0.61であるのに対し、このスコアはリッジ回帰では0.97であることを示しています。これの説明は何だろうか。これは私が多くの機能を持っているからであり、Lassoは冗長な機能を取り除いて一種の機能選択を行うため、パフォーマンスが向上しますか?


1
リッジのパフォーマンスが向上すると思うのはなぜですか?サンプルサイズは?
bdeonovic

1
「より厳密な回帰」とはどういう意味ですか?
bdeonovic

回答:


20

2つの高度に相関した予測変数があり、両方が中央に配置され、スケーリングされている(ゼロ、分散1を意味する)と仮定します。そして、パラメータベクトルのリッジペナルティはあるβ 2 1 + β 2 2投げ縄ペナルティ項がある一方、| β 1 | + | β 2 |。ここで、モデルは共直線性が高いと想定されているため、xzYを予測する際に多かれ少なかれ相互に置き換えることができるため、x zの多くの線形結合では部分的に単純に置き換えますx,zβ12+β22β1+β2xzYx,z for z、予測子として非常によく機能します。たとえば、 0.2 x + 0.8 x 0.3 x + 0.7 zまたは 0.5 x + 0.5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5z予測子とほぼ同じくらい良いでしょう。これら3つの例を見てみましょう。3つの場合すべての投げ縄ペナルティは等しく、1です。一方、リッジペナルティは異なり、それぞれ0.68、0.58、0.5です。選択することはできません。これは、リッジ(より一般的には、投げ縄とリッジのペナルティの線形結合であるエラスティックネット)が共線形予測子でよりうまく機能する理由の1つです:データが共線形予測子の異なる線形結合から選択する理由をほとんど与えない場合、投げ縄は単に「うねり」は、尾根が均等な重みを選択する傾向がある間 その最後は、将来のデータで使用するためのより良い推測かもしれません!そして、もしそれが現在のデータでそうであれば、リッジでのより良い結果としてクロス検証に現れる可能性があります。

これをベイジアンの方法で見ることができます。リッジと投げ縄は異なる事前情報を意味し、リッジによって暗示される事前情報はそのような状況ではより合理的である傾向があります。(ここでのこの説明は、Trevor Hastie、Robert Tibshirani、Martin Wainwrightの著書「スパース性のなげなわと一般化」から多かれ少なかれ学びましたが、現時点では直接引用を見つけることができませんでした)。


4
リッジが将来のデータでより良く機能する可能性についての良い点。現在のデータの相互検証のエラーと新しいデータの有用性の区別は、見落とされがちです。後者の推定では、OPはデータの複数のブートストラップサンプルでLASSO、エラスティックネット、およびリッジモデル構築プロセス全体を繰り返し、完全なデータセットに適用されたときにエラーを調べることができます。それは少なくともモデル構築プロセスをテストします。
EdM

共線データに等しい重みを選択することがなぜ有利なのか、私には明らかではありませんか?誰かがその点について詳しく説明できますか?
ラモンマルティネス

3

投げ縄と尾根の最も重要な違いは、投げ縄が自然に選択を行うことです。特に共変量が非常に相関している場合です。当てはめられた係数を見ずに実際に確認することは不可能ですが、それらの相関する特徴の中で、多くは単に役に立たないと考えるのは簡単です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.