ニューラルネットワークのバイアスユニットの正則化用語はありません

12

ディープラーニングに関するこのチュートリアルによると、重みの減衰（正規化）は通常、バイアス用語に適用されません。なぜですか？

その背後にある意義（直感）とは何ですか？

— ハーシット
ソース

私は前に非常に類似した質問を見たと思う、それを見つけることができません...おそらくあなたは関連する質問を検討し、その答えを見つけるべきでしょう。また、おそらくこれは多少役立つかもしれません。

— リチャードハーディ

13

通常、オーバーフィッティングでは、モデルの出力が入力データの小さな変化に敏感である必要があります（つまり、ターゲット値を正確に補間するには、フィット関数に多くの曲率が必要になる傾向があります）。バイアスパラメーターは、モデルの曲率に寄与しないため、通常、それらを正則化する意味はほとんどありません。

— ディクラン・マースピアル
ソース

5

L2（またはL1）の背後にある動機は、重みを制限し、ネットワークを制約することにより、過剰適合する可能性が低くなることです。バイアスは固定されているため（b = 1など）、バイアスの重みを制限してもほとんど意味がありません。したがって、ニューロンインターセプトのように機能し、より高い柔軟性が与えられます。

— ラマリョ
ソース

1

私は、バイアス項は、多くの場合の平均値で初期化されていることを追加する1のではなく0、我々はあまりにも遠く離れて一定の値からのように取得しないように方法でそれを定例化する場合がありますので、1やっなど1/2*(bias-1)^2ではなく1/2*(bias)^2。

おそらく-1、バイアスの平均値を差し引くことで部品を交換すると、おそらくレイヤーごとの平均値または全体的な平均値を差し引くことができます。しかし、これは私がしている仮説に過ぎません（平均的な減算について）。

これはすべて、アクティベーション機能にも依存しています。たとえば、バイアスが高い定数オフセットに正則化されている場合、シグモイドは勾配を消すためにここで悪いかもしれません。

— ギヨーム・シュヴァリエ
ソース

0

チュートリアルでは、「バイアスユニットに重み減衰を適用しても、通常、最終的なネットワークにわずかな違いしか生じない」と書かれているため、それが役に立たない場合は、それをやめて1つのハイパーパラメーターを排除できます。オフセットを正規化するとセットアップに役立つと思われる場合は、それを相互検証します。試しても害はありません。

— エムレ
ソース