バイアスはどのように初期化および正則化する必要がありますか?


12

カーネルの初期化に関するいくつかの論文を読みましたが、多くの論文では、カーネルのL2正則化(多くの場合、)を使用していると述べています。λ=0.0001

定数ゼロでバイアスを初期化し、それを正規化しないのとは違う人がいますか?

カーネル初期化ペーパー

回答:


14

Stanford CS231N Notes(http://cs231n.github.io/neural-networks-2/)から:

バイアスの初期化。非対称性の破れは重みの小さな乱数によって提供されるため、バイアスをゼロに初期化することが可能であり、一般的です。ReLUの非線形性については、すべてのバイアスに0.01などの小さな定数値を使用することを好む人もいます。これにより、すべてのReLUユニットが最初に発火し、勾配を取得して伝播することが保証されるためです。ただし、これが一貫した改善を提供するかどうかは明らかではなく(実際、これによりパフォーマンスが低下することを示す結果があるように見えます)、単純に0バイアス初期化を使用する方が一般的です。

LSTMでは、バイアスを1に初期化するのが一般的です-たとえばhttp://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdfを参照してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.