論文：レイヤーの正規化、繰り返しバッチ正規化（2016）、およびバッチ正規化RNN（2015）の違いは何ですか？

そのため、最近、レイヤーの正規化に関する論文があります。Kerasにも実装されています。

しかし、Recurrent Batch Normalization（Cooijmans、2016）とBatch Normalized Recurrent Neural Networks（Laurent、2015）というタイトルの論文があることを覚えています。これら3つの違いは何ですか？

私が理解できないこの関連作業セクションがあります：

以前、バッチ正規化はリカレントニューラルネットワークに拡張されていました[Laurent et al。、2015、Amodei et al。、2015、Cooijmans et al。、2016]。前の研究[Cooijmans et al。、2016]は、時間ステップごとに独立した正規化統計を保持することにより、反復バッチ正規化の最高のパフォーマンスが得られることを示唆しています。著者は、反復バッチ正規化レイヤーのゲインパラメーターを0.1に初期化すると、モデルの最終的なパフォーマンスに大きな違いが生じることを示しています。私たちの仕事は、重量の正規化にも関係しています[Salimans and Kingma、2016]。重み正規化では、分散の代わりに、着信重みのL2ノルムを使用して、加算された入力をニューロンに正規化します。。予想される統計を使用して重み正規化またはバッチ正規化を適用することは、元のフィードフォワードニューラルネットワークの異なるパラメーター化を持つことと同等です。ReLUネットワークでの再パラメーター化は、Pathnormalized SGDで研究されました[Neyshabur et al。、2015]。ただし、提案されているレイヤーの正規化方法は、元のニューラルネットワークの再パラメーター化ではありません。したがって、層の正規化モデルには、他の方法とは異なる不変性特性があります。これについては、次のセクションで説明します

— リルト
ソース

レイヤーの正規化（Ba 2016）：バッチ統計を使用しません。現在のサンプルのレイヤー内のすべてのユニットから収集された統計を使用して正規化します。ConvNetsではうまく機能しません。
Recurrent Batch Normalization（BN）（Cooijmans、2016 ; Qianli LiaoとTomaso Poggioが同時に提案しましたが、RNN / LSTMの代わりにRecurrent ConvNetsでテストしました）：バッチ正規化と同じです。タイムステップごとに異なる正規化統計を使用します。各タイムステップの平均と標準偏差のセットを保存する必要があります。
バッチ正規化リカレントニューラルネットワーク（Laurent、2015）：バッチ正規化は、入力状態と非表示状態の間でのみ適用され、非表示状態間では適用されません。つまり、正規化は時間の経過とともに適用されません。
ストリーミングの正規化（ Liao et al。2016）：既存の正規化を要約し、上記のほとんどの問題を克服します。ConvNets、反復学習、オンライン学習（つまり、小さなミニバッチまたは一度に1つのサンプル）でうまく機能します。
$L2$ $L2$ $1$ $y = x*(w/|w|)$ $x$ $w$ $g$ $y = y*g$ $g$ パフォーマンスには不可欠ではないようです（ダウンストリームの学習可能なレイヤーもこれを学習できます）。
$L2$ $y = (x/|x|)*(w/|w|)$ $x$ $w$

重みとコサイン正規化の両方が、HMAX（Riesenhuber 1999）と呼ばれるConvNetsのクラスで2000年代に広く使用され（正規化されたドット積と呼ばれる）、生物学的視覚をモデル化していることに注意してください。面白いかもしれません。

参照：HMAXモデルリファレンス

参照：Cortical Network Simulatorリファレンス

参照：コサイン正規化：ニューラルネットワークでのドット積の代わりにコサイン類似性を使用する、Luo Chunjie、Zhan jianfeng、Wang lei、Yang Qiang

— NeuralWorks
ソース