正則化:なぜ1 / 2mを掛けるのですか?


9

週3講義ノートアンドリュー・ウのコーセラ機械学習クラスは、この用語は、正則化を実装するためのコスト関数に追加されます。

J+(θ)=J(θ)+λ2mj=1nθj2

講義ノートには次のように書かれています:

また、すべてのシータパラメータを1つの合計で正則化することもできます。

minθ 12m [i=1m(hθ(x(i))y(i))2+λ j=1nθj2]

は後でニューラルネットワークの正則化項に適用されます12m

正規化されたロジスティック回帰のコスト関数は次のとおりであることを思い出してください。

J(θ)=1mi=1m[y(i) log(hθ(x(i)))+(1y(i)) log(1hθ(x(i)))]+λ2mj=1nθj2

J(Θ)=1mi=1mk=1K[yk(i)log((hΘ(x(i)))k)+(1yk(i))log(1(hΘ(x(i)))k)]+λ2ml=1L1i=1slj=1sl+1(Θj,i(l))2
  • J
  • m

1 / mはJ(theta)AFAIK @DikranMarsupialの正則化ではなく、正則化にありますか?その仮定が行われています......またはJ(theta)自体に1 / m項がありますか?
seanv507 2017

12m

回答:


5

10個の例があり、L2正則化コストを例の数mで除算しないとします。次に、クロスエントロピーコストと比較したL2正則化コストの「優位性」は10:1のようになります。これは、各トレーニング例が全体のコストに1 / m = 1/10に比例して寄与できるためです。

さらに多くの例、たとえば100がある場合、L2正則化コストの「優性」は100:1のようなものになるため、それに応じてλを減らす必要があり、不便です。それは持っている方が良いですλに関係なくバッチサイズの定数を。

更新:この議論をより強力にするために、jupyterノートブックを作成しまし


1
うーん、しかし、各トレーニングの例がコストに等しく貢献するコスト関数の前の1 / m係数の目的ではないですか?したがって、すでに個々のコストを平均化しているので、これがL2項の支配の原因となることはありません。しかし、私はあなたの素晴らしいシミュレーションから、L2項の前にも1 / m係数が役立つことがわかります。私はその背後にある直感を得ていません(まだ)。
ミラニア

なぜそれが不便なのですか?L2コストをサンプル数で割るのは簡単です。多分あなたはそれを間違った言い方で言ったと思います。毎回L2コストを手動でスケーリングするのは不便だと言っていたと思いますが、数式の一部としてサンプル数で除算すると、自動的にスケーリングされます。
SpaceMonkey 2018

6

J(θ)mλmJ(θ)mθ


mmλmmnm

質問の損失関数はすべての例の平均(つまり、mで除算)であり、合計ではないため、この答えがどのように機能するかはわかりません。
Denziloe

@Denziloeそれは正則化用語にも適用されます。
Dikran Marsupial

2

このコースを受講したときもまったく同じことを考えていたので、少し調べてみました。ここで簡単な回答をお伝えしますが、詳細については、私が書いたブログ投稿をご覧ください。

これらのスケーリング係数の理由の少なくとも一部は、L²正則化がおそらく、関連するが同一ではない重み減衰の概念の導入により、深層学習の分野に入ったと考えられます。

次に、0.5係数が存在し、勾配での重み減衰のλのみの係数と、mによるスケーリングが得られます。まあ、私が見つけた、または思いついた動機は少なくとも5つあります。

  1. バッチ勾配降下の副作用:勾配降下の1回の反復が代わりにトレーニングセット全体で形式化されると、アルゴリズムがバッチ勾配降下と呼ばれることもあり、コスト関数を同等にするために1 / mのスケーリング係数が導入されます異なるサイズのデータ​​セットにまたがって、重量減衰項に自動的に適用されます。
  2. 1つの例の重みに合わせてスケールを変更します。grezの興味深い直感を参照してください。
  3. トレーニングセットの代表性:トレーニングセットのサイズが大きくなるにつれて、正規化を縮小することは理にかなっています。統計的には、全体的な分布の代表性も大きくなるからです。基本的に、データが多いほど、必要な正規化は少なくなります。
  4. λを比較可能にする:うまくいけば、mが変化したときにλを変更する必要性を軽減することにより、このスケーリングにより、異なるサイズのデータ​​セット全体でλ自体を比較可能にします。これにより、λは、特定の学習問題の特定のモデルで必要とされる実際の正則化の度合いのより代表的な推定値になります。
  5. 経験的価値:優れたノートブックgrezは、これにより実際のパフォーマンスが向上することを示しています。

0

私もこれについて混乱していましたが、その後、deeplearning.aiの講義で、これは単なるスケーリング定数であるとAndrewは示唆しています。

http://www.youtube.com/watch?v=6g0t3Phly2M&t=2m50s

おそらく1 / 2mを使用する理由はもっと深いのかもしれませんが、それは単なるハイパーパラメータだと思います。


これは質問の答えにはなりません。
Michael
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.