で週3講義ノートのアンドリュー・ウのコーセラ機械学習クラスは、この用語は、正則化を実装するためのコスト関数に追加されます。
講義ノートには次のように書かれています:
また、すべてのシータパラメータを1つの合計で正則化することもできます。
は後でニューラルネットワークの正則化項に適用されます。
正規化されたロジスティック回帰のコスト関数は次のとおりであることを思い出してください。
で週3講義ノートのアンドリュー・ウのコーセラ機械学習クラスは、この用語は、正則化を実装するためのコスト関数に追加されます。
講義ノートには次のように書かれています:
また、すべてのシータパラメータを1つの合計で正則化することもできます。
は後でニューラルネットワークの正則化項に適用されます。
正規化されたロジスティック回帰のコスト関数は次のとおりであることを思い出してください。
回答:
10個の例があり、L2正則化コストを例の数mで除算しないとします。次に、クロスエントロピーコストと比較したL2正則化コストの「優位性」は10:1のようになります。これは、各トレーニング例が全体のコストに1 / m = 1/10に比例して寄与できるためです。
さらに多くの例、たとえば100がある場合、L2正則化コストの「優性」は100:1のようなものになるため、それに応じてλを減らす必要があり、不便です。それは持っている方が良いですλに関係なくバッチサイズの定数を。
更新:この議論をより強力にするために、jupyterノートブックを作成しました。
このコースを受講したときもまったく同じことを考えていたので、少し調べてみました。ここで簡単な回答をお伝えしますが、詳細については、私が書いたブログ投稿をご覧ください。
これらのスケーリング係数の理由の少なくとも一部は、L²正則化がおそらく、関連するが同一ではない重み減衰の概念の導入により、深層学習の分野に入ったと考えられます。
次に、0.5係数が存在し、勾配での重み減衰のλのみの係数と、mによるスケーリングが得られます。まあ、私が見つけた、または思いついた動機は少なくとも5つあります。
grez
は、これにより実際のパフォーマンスが向上することを示しています。私もこれについて混乱していましたが、その後、deeplearning.aiの講義で、これは単なるスケーリング定数であるとAndrewは示唆しています。
http://www.youtube.com/watch?v=6g0t3Phly2M&t=2m50s
おそらく1 / 2mを使用する理由はもっと深いのかもしれませんが、それは単なるハイパーパラメータだと思います。