空間の任意の点に向けてL2正則化を実装する方法は?


11

これは、Ian Goodfellowの本「Deep Learning」で読んだものです。

ニューラルネットワークのコンテキストでは、「L2パラメータのノルムペナルティは一般的に重み減衰として知られています。この正則化戦略は、重みを原点に近づけます[...]。より一般的には、パラメータを任意の特定の点の近くに正則化できます空間内」ですが、モデルパラメータをゼロに向けて正則化するのがはるかに一般的です。(ディープラーニング、グッドフェロー他)

気になるだけです。コスト関数に正則化項を追加するだけで、この合計コストJを最小化することで、モデルのパラメーターを小さく保つことができることを理解しています。

J(Θ,X,y)=L(Θ,X,y)+λ||w||22

しかし、パラメーターを任意のポイントに導くこの正則化戦略のバージョンをどのように実装しますか?(たとえば、ノルムを5に向けたいとしましょう)

回答:


14

あなたは実際に2つの異なる質問をします。

  1. ノルムが5になる傾向があるということは、重みが原点を中心とする半径5の超球の表面の近くにあることを意味します。この正則化は次のようになります。

J(Θ,X,y)=L(Θ,X,y)+λ(||w||225)2

λabs(||w||225)

  1. c

J(Θ,X,y)=L(Θ,X,y)+λ||wc||22

J

(上記の意味を明確にするために短い回答を書きました。ところで、2つの質問の違いを明確にしていただきありがとうございます!)
user795305

その際の一般的な(実用的な)目標は、既知の操作点に向けて正則化することです。たとえば、置き換えたい以前のモデルで、「スムーズな」移行が必要な場合
oDDsKooL

6

w^λ=argminwL(Θ,X,y)+λw22.
limλw^λ=0ww22

Sycoraxは、同様に、この一般化が成功すると、推定器が提案されますここで、は関数ですその最小化子は、私たちが求めるいくつかの特性を満たします。実際、Sycoraxは 2-5)をとります。ここで、は原点で(一意に)最小化され、特に。したがって、、必要に応じて。残念ながら、しかし、両方の選択肢limλ{argminwL(Θ,X,y)+λwc22}=c.

w~λ=argminwL(Θ,X,y)+λpen(w),
penpen(w)=g(w225)gg{||,()2}limλw~λ22=5g凸でないペナルティにつながり、推定量の計算が困難になります。

上記の分析は、を「傾向」の一意の解釈であると主張する場合、最良の解決策(おそらくの選択までですが、これについて私が提案するものはありません)質問。ただし、があるとすると、いくつかのが存在するため、OPの問題の最小化が満足する。したがって、目的関数を変更する必要ません。そのようなが存在しない場合、計算の問題gλargminwL(Θ,X,y)225Λw^Λw^Λ22=5

limλΛw^λ22=5,
Λargminw:w22=5L(Θ,X,y)は本質的に困難です。実際、自然な特性を奨励する場合、以外の推定量を考慮する必要はありません。w^λw^λ22

(ペナルティ付き見積もり者がペナルティなしの見積もり者によって達成されないペナルティの値を達成することを強制することは、私にとって非常に不自然に思われます。これが実際に望ましい場所に気付いている場合は、コメントしてください!)


1
これはすばらしい追加です。+1
Sycoraxによると、モニカは2017

2

適切な場合、負の対数尤度と見なすことができ、適切な正則化は、事前分布の負の対数尤度と見なすことができます。このアプローチは、Maximum A Posterori(MAP)と呼ばれます。LJ

MAPに照らしてSycoraxの例を簡単に確認できるはずです。

MAPの詳細については、これらのメモを参照してください。私の経験から、「最大の事後正規化」をググリングすると、良い結果が得られます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.