なげなわが変数選択を提供するのはなぜですか？

Elements of Statistics Learningを読んでいますが、なぜLassoが変数選択を提供し、リッジ回帰が提供しないのかを知りたいと思います。

どちらの方法も、残差平方和を最小化し、パラメーター可能な値に制約があります $\beta$ 。投げ縄の場合、制約は $||\beta||_1 \le t$ 、尾根のためにそれがあるのに対し $||\beta||_2 \le t$ 、いくつかのために $t$ 。

私は本でダイヤモンド対楕円の絵を見ましたが、なぜ投げ縄が制約領域の角に当たることができるかについていくつかの直感があります。しかし、私の直感はかなり弱く、私は確信していません。見やすいはずですが、なぜそうなのかわかりません。

だから、私は数学的な正当化、または残差平方和の輪郭が角に当たる可能性が高い理由の直感的な説明を探していると思います $||\beta||_1$ 制約領域（一方、制約が場合、この状況は起こりそうにありません $||\beta||_2$ ）。

— 志Z
ソース

以下の答えはすべて良い説明です。しかし、視覚的な表現を含む記事を出しました。続いて、リンクのあるmedium.com/@vamsi149/...

— solver149

回答:

$y = \beta x + e$ $\hat{\beta}$ $\hat{e}$

$\min y^Ty -2 y^Tx\hat{\beta} + \hat{\beta} x^Tx\hat{\beta} + 2\lambda|\hat{\beta}|$

最小二乗解がであると仮定し。これはと仮定するのと同等であり、L1ペナルティを追加するとどうなるかを見てみましょう。、なので、ペナルティ項は等しくなります。目的関数wrtの導関数は次のとおりです。 $\hat{\beta} > 0$ $y^Tx > 0$ $\hat{\beta}>0$ $|\hat{\beta}| = \hat{\beta}$ $2\lambda\beta$ $\hat{\beta}$

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda$

明らかに解ます。 $\hat{\beta} = (y^Tx - \lambda)/(x^Tx)$

明らかにを増やすことで、をゼロに（）駆動できます。ただし、いったん、を増やしても負にはなりません。なぜなら、ゆるやかに書くと、インスタントは負になるため、目的関数の導関数は次のように変化します。 $\lambda$ $\hat{\beta}$ $\lambda = y^Tx$ $\hat{\beta} = 0$ $\lambda$ $\hat{\beta}$

$-2y^Tx +2x^Tx\hat{\beta} - 2\lambda$

の符号の反転は、ペナルティ項の絶対値の性質によるものです。場合負となり、ペナルティ項は、に等しくなる、及び誘導体WRTの撮影で結果を。これは解につながります。これは明らかに（最小二乗解であるとおよびを意味し $\lambda$ $\beta$ $-2\lambda\beta$ $\beta$ $-2\lambda$ $\hat{\beta} = (y^Tx + \lambda)/(x^Tx)$ $\hat{\beta} < 0$ $> 0$ $y^Tx > 0$ $\lambda > 0$ ）。そこに移動するときに（我々は最小二乗解から遠く移動しているように）L1ペナルティの増加や二乗誤差項の増加であるからにので、我々はない、我々だけを行います固執し。 $\hat{\beta}$ $0$ $< 0$ $\hat{\beta}=0$

最小二乗解法については、適切な符号の変更により、同じロジックが適用されることを直感的に明確にする必要があります。 $\hat{\beta} < 0$

ただし、最小二乗ペナルティでは、導関数は次のようになります。 $\lambda\hat{\beta}^2$

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda\hat{\beta}$

明らかに解ます。明らかに、の増加はこれをゼロに追いやることはありません。そのため、L2ペナルティは、「パラメーター推定値が未満の場合、パラメーター推定値をゼロに設定する」などの穏やかな広告なしでは、変数選択ツールとして機能できません。 $\hat{\beta} = y^Tx/(x^Tx + \lambda)$ $\lambda$ $\epsilon$

多変量モデルに移動すると、明らかに変化する可能性があります。たとえば、あるパラメーター推定値を移動すると、別のパラメーター推定値が符号を変更するように強制される場合がありますが、一般的な原則は同じです：L2ペナルティ関数では、ゼロまで到達できません。なぜなら、非常にヒューリスティックに書くと、実際にはの式の「分母」に追加されますが、L1ペナルティ関数は「分子」に追加されるためです。 $\hat{\beta}$

— ボーマン
ソース

Lassoは、NNなどの非線形モデルの場合にも機能の選択を提供しますか？

— イリヤ

小さなフォローアップの質問：がベクトルで、が適合を見つけるために変化できるスカラーである場合、はどうなりますか？

λ = y^{T} x

$\lambda = y^Tx$

y^{T} x

$y^Tx$

λ

$\lambda$

— エカテリーナコカットジュハ

私は単変量の例を使用していたため、はスカラーです。多変量問題を解く場合、解決される問題に応じて、に長さ=のサイズまたは適切なサイズの単位行列を持つ1のベクトルが乗算されます。たとえば、 L2ノルム=に注意し、上記の式で置換を行うことで、これを解決できます。

y^{T} x

$y^Tx$

λ

$\lambda$

β

$\beta$

z

$z$

z^{T} I z

$z^T\text{I}z$

— -jbowman

ペナルティ関数の絶対的な性質により、このロジックの一部を追うことができないため、ラムダの符号がどのように反転するかを（数学的に）示すことは可能でしょうか。

— user1420372

@ user1420372-完了しました; どう考えているか教えてください。

— jbowman

y = 1およびx = [1/10 1/10]（1つのデータポイント、2つのフィーチャ）のデータセットがあるとします。1つの解決策は、機能の1つを選択することであり、別の機能は両方の機能に重みを付けることです。つまり、w = [5 5]またはw = [10 0]を選択できます。

L1ノルムでは両方とも同じペナルティがありますが、拡散ウェイトが大きいほどL2ノルムではペナルティが低くなります。

— ブラーグ
ソース

私はすでに優れた答えがあると思いますが、幾何学的な解釈に関するいくつかの直観を追加するだけです。

「投げ縄は収縮を実行するので、2次元でダイアモンドに対応する制約に「コーナー」があります。平方和がこれらのコーナーの1つを「ヒット」すると、軸に対応する係数が縮小されます。ゼロに。 $L1$

増加、多次元ダイヤモンドは、コーナーの増加を有し、いくつかの係数がゼロに等しく設定される可能性が高いです。したがって、なげなわは、縮小と（効果的に）サブセットの選択を実行します。 $p$

サブセットの選択とは対照的に、リッジはソフトしきい値処理を実行します。平滑化パラメーターが変化すると、推定値のサンプルパスは連続的にゼロに移動します。

ソース：https : //onlinecourses.science.psu.edu/stat857/book/export/html/137

色付きの線がゼロに向かって縮小する回帰係数のパスである場合、効果をうまく視覚化できます。

「リッジ回帰は、すべての回帰係数をゼロに縮小します。投げ縄は、ゼロの回帰係数のセットを提供する傾向があり、スパースソリューションになります。」

ソース：https : //onlinecourses.science.psu.edu/stat857/node/158

— vonjd
ソース