L2正則化はガウス事前分布と同等です


56

私はこれを読み続け、直感的にこれを見ることができますが、L2の正則化から分析的にガウス事前分布であると言うにはどうすればよいですか?L1がラプラシアンの事前分布と同等であることも同じです。

それ以上の参照は素晴らしいでしょう。

回答:


54

観測された入出力ペアからパラメーターを推測したいと想像してみましょう。出力がを介して入力に線形に関連し、データがノイズによって破損していると仮定します。β(x1,y1),(xN,yN)βϵ

yn=βxn+ϵ,

ここで、は平均および分散ガウスノイズです。これにより、ガウス尤度が発生します。ϵ0σ2

n=1NN(yn|βxn,σ2).

ガウス事前分布を課すことにより、パラメーター正規化しますここで、は厳密に正のスカラーです。したがって、尤度と事前確率を組み合わせると、次のようになります。βN(β|0,λ1),λ

n=1NN(yn|βxn,σ2)N(β|0,λ1).

上記の式の対数を取りましょう。取得する定数をいくつか削除します。

n=1N1σ2(ynβxn)2λβ2+const.

私たちがすることに関して上記の式を最大化する場合は、我々はそのための最大事後推定呼び出さ短いため、またはMAP推定。この式では、なぜガウス事前分布がL2正則化項として解釈できるのかが明らかになります。ββ


同様に、L1ノルムとラプラス事前分布の関係も同じように理解できます。ガウス事前分布の代わりに、ラプラス事前分布をあなたの可能性と組み合わせて、対数を取る。

両方の問題の詳細な参考資料(おそらく少し進んだもの)は、「教師あり学習のための適応的スパースネス」という論文です。または、「Jeffreys Priorを使用した適応スパースネス」を参照してください。もう1つの参考資料は、「ラプラス事前分布によるベイズ分類について」です。


1
ではD dimension、線形回帰の場合、できるbetasigma明示的な解決策がありますか?私はPRMLを読んでいて、30ページの式(1.67)を見つけましたが、それを解決する方法がわかりません。最尤法では、解決してbetaからsigma勾配をゼロに設定します。正則化された最小二乗法では、再定式化パラメーターsome lambdaが既知であるため、beta直接解きます。しかし、我々は直接MAPを解決した場合、解決のために何betasigma?彼らは明示的な解決策を持つことができますか、反復プロセスを使用する必要がありますか?
stackunderflow

あなたは上の「四角」欠けている最後の式、すなわち?λβλβ2
brian.keng

@AdamO係数が取り得る値の数を制限します。たとえば、事前確率が1〜10の場合、係数が他の値をとる確率は0、つまり[-inf to 1]と[10、+ inf]です。
imsrgadich

1
この場合、が既知です。が不明なときに機能しますか?ベイズ線形回帰の場合、逆ガンマ事前分布を使用して、分散の前に共役を形成できます。しかし、代数が同じ表現になるかどうかはわかりません。σ2σ2
AdamO

11

多変量正規事前尤度および多変量正規尤度を持つ線形モデルの場合、事後(および最大事後モデル)の平均がTikhonov正則化(を使用して正確に得られる多変量正規事後分布になります正則化)適切な正則化パラメーターを持つ最小二乗。 L2

ベイジアン事後確率は確率分布であるのに対し、チホノフ正則化最小二乗解は特定のポイント推定値であるという点で、より根本的な違いがあることに注意してください。

これは、逆問題のベイズ法に関する多くの教科書で説明されています。例を参照してください。

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

同様に、ラプラシアン事前確率と多変量正規尤度がある場合、事後分布の最大値は、正則化最小二乗問題を解くことで得られる点で発生します。 L1


9

最初に中央値がL1ノルムを最小化することに注意してください(L1およびL2の詳細については、ここまたはここを参照してください)

median(x)=argminsi|xis|1

一方、平均はL2を最小化します

mean(x)=argminsi|xis|2

ここで、ラプラス分布のパラメーターのMLE推定量が中央値であるのに対し、正規分布のパラメーターはサンプル平均を使用して推定できることを思い出してください。したがって、正規分布を使用することはL2ノルム最適化と同等であり、ラプラス分布を使用することはL1最適化を使用することと同等です。実際には、中央値は平均よりも外れ値の影響を受けにくいと考えることができます。また、同じように、太いテールのラプラス分布を事前に使用すると、正規分布を使用するよりもモデルが外れ値になりにくくなります。μμμ


ハーレー、WJ(2009)二重指数分布のMLEを計算するための帰納的アプローチJournal of Modern Applied Statistics Methods:8(2)、Article 25。


おそらくこれはここで与えられる最も数学的に厳密な答えではないかもしれませんが、L1 / L2正則化の初心者が理解するのが間違いなく最も簡単で最も直感的なものです。
SQLServerSteve

8

変数(インターセプトなし)の回帰問題の場合、次のようにOLSを実行します。k

minβ(yXβ)(yXβ)

ペナルティを使用した正規化回帰では、Lp

minβ(yXβ)(yXβ)+λi=1k|βi|p

同様に行うことができます(記号が変わることに注意してください)

maxβ(yXβ)(yXβ)λi=1k|βi|p

これは、ベイズの原理に直接関係しています

posteriorlikelihood×prior

または同等(規則性条件下)

log(posterior)log(likelihood)+log(penalty)

現在、どの指数関数族分布がどのペナルティタイプに対応するかを確認するのは難しくありません。


3

同等性をより正確に表すには:

モデルの重みを最適化してL2正則化で二乗誤差損失関数を最小化することは、ベイズ規則を使用して評価された事後分布の下で最も可能性が高い重みを、平均が0の独立ガウス重みを前にして見つけることと同等です

証明:

上記の損失関数は次のようになります

L=[n=1N(y(n)fw(x(n)))2]Originallossfunction+λi=1Kwi2L2loss

多変量ガウス分布はことに注意してください

N(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(12(xμ)Σ1(xμ))

ベイズ規則を使用すると、

p(w|D)=p(D|w)p(w)p(D)p(D|w)p(w)[nNN(y(n);fw(x(n)),σy2)]N(w;0,σw2I)nNN(y(n);fw(x(n)),σy2)i=1KN(wi;0,σw2)

共分散は単位行列の倍数であるため、多次元グアシアンを製品に分割できる場所。

負の対数確率を取る

log[p(w|D)]=n=1Nlog[N(y(n);fw(x(n)),σy2)]i=1Klog[N(wi;0,σw2)]+const.=12σy2n=1N(y(n)fw(x(n)))2+12σw2i=1Kwi2+const.

もちろん、定数を落として、損失関数に根本的な影響を与えることなく、任意の量を掛けることができます。(定数は何もせず、乗算は学習率を効果的にスケーリングします。最小値の位置には影響しません)したがって、事後分布の負の対数確率は、L2正則化二乗誤差損失関数と同等の損失関数であることがわかります。

この等式は一般的であり、パラメータ化された重みの関数に当てはまります。上記で暗示されているような線形回帰だけではありません。


1

特定のペナルティ付き最尤推定とベイジアン手順の等価性を議論する場合、強調する必要があるベイジアンモデリングの2つの特性があります。

  1. ベイジアンフレームワークでは、事前確率は問題の詳細に基づいて選択され、計算の都合により動機付けられません。したがって、ベイジアンは、スパース予測子の問題に対して現在人気のある馬蹄型の事前分布を含むさまざまな事前分布を使用し、L1またはL2のペナルティーに相当する事前分布にそれほど依存する必要はありません。
  2. 完全なベイジアンアプローチを使用すると、完了時にすべての推論手順にアクセスできます。たとえば、大きな回帰係数の証拠を定量化し、回帰係数と全体的な予測値の信頼できる間隔を取得できます。頻繁なフレームワークでは、ペナルティを選択すると、推論マシンがすべて失われます。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.