そのため、最近、レイヤーの正規化に関する論文があります。Kerasにも実装されています。
しかし、Recurrent Batch Normalization(Cooijmans、2016)とBatch Normalized Recurrent Neural Networks(Laurent、2015)というタイトルの論文があることを覚えています。これら3つの違いは何ですか?
私が理解できないこの関連作業セクションがあります:
以前、バッチ正規化はリカレントニューラルネットワークに拡張されていました[Laurent et al。、2015、Amodei et al。、2015、Cooijmans et al。、2016]。前の研究[Cooijmans et al。、2016]は、時間ステップごとに独立した正規化統計を保持することにより、反復バッチ正規化の最高のパフォーマンスが得られることを示唆しています。著者は、反復バッチ正規化レイヤーのゲインパラメーターを0.1に初期化すると、モデルの最終的なパフォーマンスに大きな違いが生じることを示しています。私たちの仕事は、重量の正規化にも関係しています[Salimans and Kingma、2016]。重み正規化では、分散の代わりに、着信重みのL2ノルムを使用して、加算された入力をニューロンに正規化します。。予想される統計を使用して重み正規化またはバッチ正規化を適用することは、元のフィードフォワードニューラルネットワークの異なるパラメーター化を持つことと同等です。ReLUネットワークでの再パラメーター化は、Pathnormalized SGDで研究されました[Neyshabur et al。、2015]。ただし、提案されているレイヤーの正規化方法は、元のニューラルネットワークの再パラメーター化ではありません。したがって、層の正規化モデルには、他の方法とは異なる不変性特性があります。これについては、次のセクションで説明します