バッチ正規化はReLUアクティベーション機能に意味がありますか?


10

バッチ正規化は、このホワイトペーパーでは、スケール変数とシフト変数およびβを使用したアクティブ化関数への入力の正規化として説明されています。このペーパーでは、主にシグモイドアクティベーション関数の使用について説明します。ただし、バッチ正規化によって生成された正規化分布からの入力をm a x 0 x )の ReLU活性化関数に供給することは、βγβmax(0,x)βReLUが入力情報を失わないように、ほとんどの入力を0を超えてシフトすることを学習しません。つまり、ReLUへの入力が標準正規化されただけである場合、0未満の多くの情報が失われます。この情報が失われないことを保証する保証または初期化はありますか?BNとReLUの操作方法に何か不足していますか?β

回答:


3

これは、ReLUアクティベーション機能の問題として知られています。それはしばしば「死にかけているReLU」と呼ばれます。ゼロ境界を超える入力が与えられると、ユニットはほとんど常に閉じられます。閉じたReLUは入力パラメーターを更新できません。死んだReLUは死んだままです。

ソリューションは、Leaky ReLU、Noisy ReLU、またはELUなどのアクティベーション機能にReLUのバリアントを使用することです


1

私はBNがReLUの後ではなく前に行くと思います。一般に、2つのレイヤーの間に配置して、別のレイヤー入力になる前にレイヤー出力PDFを正規化する必要があります

畳み込み層処理は、Lin(Conv演算子)+ NonLin(例:ReLU)処理(人工ニューロン処理として)で構成され、ReLUのようなスパース化nonlinは、フィルタリングの結果として負でない出力PDFを生成します。次のレイヤー入力としてそれを渡すと、BNはそれを再正規化するのに役立ちます

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.