回答:
観測された入出力ペアからパラメーターを推測したいと想像してみましょう。出力がを介して入力に線形に関連し、データがノイズによって破損していると仮定します。
ここで、は平均および分散ガウスノイズです。これにより、ガウス尤度が発生します。
ガウス事前分布を課すことにより、パラメーター正規化しますここで、は厳密に正のスカラーです。したがって、尤度と事前確率を組み合わせると、次のようになります。
上記の式の対数を取りましょう。取得する定数をいくつか削除します。
私たちがすることに関して上記の式を最大化する場合は、我々はそのための最大事後推定呼び出さ短いため、またはMAP推定。この式では、なぜガウス事前分布がL2正則化項として解釈できるのかが明らかになります。
同様に、L1ノルムとラプラス事前分布の関係も同じように理解できます。ガウス事前分布の代わりに、ラプラス事前分布をあなたの可能性と組み合わせて、対数を取る。
両方の問題の詳細な参考資料(おそらく少し進んだもの)は、「教師あり学習のための適応的スパースネス」という論文です。または、「Jeffreys Priorを使用した適応スパースネス」を参照してください。もう1つの参考資料は、「ラプラス事前分布によるベイズ分類について」です。
多変量正規事前尤度および多変量正規尤度を持つ線形モデルの場合、事後(および最大事後モデル)の平均がTikhonov正則化(を使用して正確に得られる多変量正規事後分布になります正則化)適切な正則化パラメーターを持つ最小二乗。
ベイジアン事後確率は確率分布であるのに対し、チホノフ正則化最小二乗解は特定のポイント推定値であるという点で、より根本的な違いがあることに注意してください。
これは、逆問題のベイズ法に関する多くの教科書で説明されています。例を参照してください。
http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/
http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/
同様に、ラプラシアン事前確率と多変量正規尤度がある場合、事後分布の最大値は、正則化最小二乗問題を解くことで得られる点で発生します。
最初に中央値がL1ノルムを最小化することに注意してください(L1およびL2の詳細については、ここまたはここを参照してください)
一方、平均はL2を最小化します
ここで、ラプラス分布のパラメーターのMLE推定量が中央値であるのに対し、正規分布のパラメーターはサンプル平均を使用して推定できることを思い出してください。したがって、正規分布を使用することはL2ノルム最適化と同等であり、ラプラス分布を使用することはL1最適化を使用することと同等です。実際には、中央値は平均よりも外れ値の影響を受けにくいと考えることができます。また、同じように、太いテールのラプラス分布を事前に使用すると、正規分布を使用するよりもモデルが外れ値になりにくくなります。μ
ハーレー、WJ(2009)二重指数分布のMLEを計算するための帰納的アプローチ。Journal of Modern Applied Statistics Methods:8(2)、Article 25。
変数(インターセプトなし)の回帰問題の場合、次のようにOLSを実行します。
ペナルティを使用した正規化回帰では、
同様に行うことができます(記号が変わることに注意してください)
これは、ベイズの原理に直接関係しています
または同等(規則性条件下)
現在、どの指数関数族分布がどのペナルティタイプに対応するかを確認するのは難しくありません。
同等性をより正確に表すには:
モデルの重みを最適化してL2正則化で二乗誤差損失関数を最小化することは、ベイズ規則を使用して評価された事後分布の下で最も可能性が高い重みを、平均が0の独立ガウス重みを前にして見つけることと同等です
証明:
上記の損失関数は次のようになります
多変量ガウス分布はことに注意してください
ベイズ規則を使用すると、
共分散は単位行列の倍数であるため、多次元グアシアンを製品に分割できる場所。
負の対数確率を取る
もちろん、定数を落として、損失関数に根本的な影響を与えることなく、任意の量を掛けることができます。(定数は何もせず、乗算は学習率を効果的にスケーリングします。最小値の位置には影響しません)したがって、事後分布の負の対数確率は、L2正則化二乗誤差損失関数と同等の損失関数であることがわかります。
この等式は一般的であり、パラメータ化された重みの関数に当てはまります。上記で暗示されているような線形回帰だけではありません。
特定のペナルティ付き最尤推定とベイジアン手順の等価性を議論する場合、強調する必要があるベイジアンモデリングの2つの特性があります。
D dimension
、線形回帰の場合、できるbeta
とsigma
明示的な解決策がありますか?私はPRMLを読んでいて、30ページの式(1.67)を見つけましたが、それを解決する方法がわかりません。最尤法では、解決してbeta
からsigma
勾配をゼロに設定します。正則化された最小二乗法では、再定式化パラメーターsomelambda
が既知であるため、beta
直接解きます。しかし、我々は直接MAPを解決した場合、解決のために何beta
、sigma
?彼らは明示的な解決策を持つことができますか、反復プロセスを使用する必要がありますか?