頻繁なビュー👀
ある意味では、両方の正則化を「重みの縮小」と考えることができます。L2は重みのユークリッドノルムを最小化し、L1はマンハッタンノルムを最小化します。この考え方に従って、L1とL2の等電位はそれぞれ球形と菱形であるため、Bishopのパターン認識と機械学習に示されているように、L1は解が疎になる可能性が高くなります。
ベイジアンビュー👀
ただし、事前確率が線形モデルにどのように関係するかを理解するには、通常の線形回帰のベイズ解釈を理解する必要があります。Katherine Baileyのブログ投稿は、このための優れた記事です。簡単に言えば、線形モデルで通常分布するiidエラーを想定しています
y = θ⊤X + ϵ
Ny私、私は= 1 、2 、... 、Nϵk〜N(0 、σ)
yp (y | X、θ ; ϵ)= N(θ⊤X、 σ)
結局のところ...最尤推定器は、誤差の正規性の仮定の下で、予測された出力値と実際の出力値の間の二乗誤差を最小化することと同じです。
θ^MLE= arg最大θログP(y| θ)= arg分θ∑i = 1n(y私- θ⊤バツ私)2
重みに優先順位を付けるなどの正則化
線形回帰の重みに不均一な事前分布を設定した場合、事後確率(MAP)の最大推定値は次のようになります。
θ^地図= arg最大θログP(y| θ)+logP(θ )
ブライアン・ケンのブログ投稿に由来する場合、P(θ ) はラプラス分布で、L1正則化と同等です θ。
同様に、 P(θ ) はガウス分布であり、L2の正則化と同等です θ。
今、私たちは別のビューしている前重みにラプラスを置く理由には、より多くの可能性が高いスパース性を誘導することである:ので、ラプラス分布がよりゼロの周りに集中している、私たちの重みは、より可能性がゼロでなければなりません。