ディープラーニングに関するこのチュートリアルによると、重みの減衰(正規化)は通常、バイアス用語に適用されません。なぜですか?
その背後にある意義(直感)とは何ですか?
ディープラーニングに関するこのチュートリアルによると、重みの減衰(正規化)は通常、バイアス用語に適用されません。なぜですか?
その背後にある意義(直感)とは何ですか?
回答:
通常、オーバーフィッティングでは、モデルの出力が入力データの小さな変化に敏感である必要があります(つまり、ターゲット値を正確に補間するには、フィット関数に多くの曲率が必要になる傾向があります)。バイアスパラメーターは、モデルの曲率に寄与しないため、通常、それらを正則化する意味はほとんどありません。
私は、バイアス項は、多くの場合の平均値で初期化されていることを追加する1
のではなく0
、我々はあまりにも遠く離れて一定の値からのように取得しないように方法でそれを定例化する場合がありますので、1
やっなど1/2*(bias-1)^2
ではなく1/2*(bias)^2
。
おそらく-1
、バイアスの平均値を差し引くことで部品を交換すると、おそらくレイヤーごとの平均値または全体的な平均値を差し引くことができます。しかし、これは私がしている仮説に過ぎません(平均的な減算について)。
これはすべて、アクティベーション機能にも依存しています。たとえば、バイアスが高い定数オフセットに正則化されている場合、シグモイドは勾配を消すためにここで悪いかもしれません。