バイアスはどのように初期化および正則化する必要がありますか？

カーネルの初期化に関するいくつかの論文を読みましたが、多くの論文では、カーネルのL2正則化（多くの場合、）を使用していると述べています。 $\lambda = 0.0001$

定数ゼロでバイアスを初期化し、それを正規化しないのとは違う人がいますか？

カーネル初期化ペーパー

Mishkin and Matas：必要なのは良い初期化だけです
Xavier GlorotとYoshua Bengio：ディープフィードフォワードニューラルネットワークのトレーニングの難しさを理解する
彼他：整流器を深く掘り下げる：ImageNet分類で人間レベルのパフォーマンスを超える

neural-network

Stanford CS231N Notes（http://cs231n.github.io/neural-networks-2/）から：

バイアスの初期化。非対称性の破れは重みの小さな乱数によって提供されるため、バイアスをゼロに初期化することが可能であり、一般的です。ReLUの非線形性については、すべてのバイアスに0.01などの小さな定数値を使用することを好む人もいます。これにより、すべてのReLUユニットが最初に発火し、勾配を取得して伝播することが保証されるためです。ただし、これが一貫した改善を提供するかどうかは明らかではなく（実際、これによりパフォーマンスが低下することを示す結果があるように見えます）、単純に0バイアス初期化を使用する方が一般的です。

LSTMでは、バイアスを1に初期化するのが一般的です-たとえばhttp://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdfを参照してください。

— ルーカス・ビーワルド
ソース