y=βx+eβ^e^
minyTy−2yTxβ^+β^xTxβ^+2λ|β^|
最小二乗解がであると仮定し。これはと仮定するのと同等であり、L1ペナルティを追加するとどうなるかを見てみましょう。、なので、ペナルティ項は等しくなります。目的関数wrtの導関数は次のとおりです。β^>0yTx>0β^>0|β^|=β^2λββ^
−2yTx+2xTxβ^+2λ
明らかに解ます。 β^=(yTx−λ)/(xTx)
明らかにを増やすことで、をゼロに()駆動できます。ただし、いったん、を増やしても負にはなりません。なぜなら、ゆるやかに書くと、インスタントは負になるため、目的関数の導関数は次のように変化します。λβ^λ=yTxβ^=0λβ^
−2yTx+2xTxβ^−2λ
の符号の反転は、ペナルティ項の絶対値の性質によるものです。場合負となり、ペナルティ項は、に等しくなる、及び誘導体WRTの撮影で結果を。これは解につながります。これは明らかに(最小二乗解であるとおよびを意味しλβ−2λββ−2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0)。そこに移動するときに(我々は最小二乗解から遠く移動しているように)L1ペナルティの増加や二乗誤差項の増加であるからにので、我々はない、我々だけを行います固執し。β^0<0β^=0
最小二乗解法については、適切な符号の変更により、同じロジックが適用されることを直感的に明確にする必要があります。 β^<0
ただし、最小二乗ペナルティでは、導関数は次のようになります。λβ^2
−2yTx+2xTxβ^+2λβ^
明らかに解ます。明らかに、の増加はこれをゼロに追いやることはありません。そのため、L2ペナルティは、「パラメーター推定値が未満の場合、パラメーター推定値をゼロに設定する」などの穏やかな広告なしでは、変数選択ツールとして機能できません。 β^=yTx/(xTx+λ)λϵ
多変量モデルに移動すると、明らかに変化する可能性があります。たとえば、あるパラメーター推定値を移動すると、別のパラメーター推定値が符号を変更するように強制される場合がありますが、一般的な原則は同じです:L2ペナルティ関数では、ゼロまで到達できません。なぜなら、非常にヒューリスティックに書くと、実際にはの式の「分母」に追加されますが、L1ペナルティ関数は「分子」に追加されるためです。 β^