ペーパーバッチ正規化:ディープネットワークトレーニングの加速b y内部共変量シフトの削減(ここ)バッチ正規化のプロセスを説明する前に、ペーパーは関連する問題を説明しようとします(ここで扱われている正確な問題はわかりません)。
セクション2、パラ2からの抜粋:
ネットワークを直接変更するか、最適化アルゴリズムのパラメーターをネットワークのアクティブ化の値に依存するように変更することにより、トレーニングステップごとまたは一定の間隔でアクティブ化を白くすることを検討できます(Wiesler et al。、2014; Raiko et al。、2012 ; Povey et al。、2014; Desjardins&Kavukcuoglu)。ただし、これらの変更が最適化ステップに散在している場合、勾配降下ステップは、正規化の更新を必要とする方法でパラメーターを更新しようとする場合があり、勾配ステップの影響が減少します。たとえば、学習されたバイアスを追加し、トレーニングデータに対して計算されたアクティベーションの平均を差し引くことによって結果を正規化する入力uを含むレイヤーを考えます。、X = X - E [ X ]ここで、 はトレーニングセットのの値のセットであり、 。
勾配降下ステップがE [x]のbへの依存を無視する場合、を更新します。ここで、です。次に、
です。したがって、bへの更新とそれに続く正規化の変更を組み合わせても、層の出力は変更されず、結果として損失も発生しません。トレーニングを続けると、損失は固定されたまま、bは無期限に大きくなります。この問題は、正規化が集中するだけでなく、アクティブ化をスケーリングする場合、さらに悪化する可能性があります。
ここに私の文学の理解があります:
サイズNのバッチがあります(1つのトレーニングバッチ)
パラメータおよびによって接続された互いに接続された2つの任意の隠れ層(L1およびL2)があるとします。
L1からの出力はx1です
(これは上記の文献が始まる場所です。uの次元はMxNです)(MはL2の単位数)
(次元b =次元x =次元u = MxN)
今L2にXを供給する前に、我々は、平均減算することにより、それを中心の各エントリから()
損失を計算して勾配を逆伝播し、健全性テストを行うためにこのレイヤーののみを更新します。新しい =
同じバッチで、更新されたでもう一度実行します
3と4を繰り返す
(dimension b、 = dimension x = dimension u = MxN)
ここで、xをL2に入力する前に、各エントリからの平均を引くことにより、中央に配置します()。これは、bを更新する前に計算されたものと同じです。したがって、bを更新すると、トレーニングに影響がありました。
私の質問は抜粋のこの部分です:
「勾配降下ステップがE [x]のbへの依存を無視する場合、を更新します。ここで、です。その後、 "
なぜですか
" " その前に来るものに依存?そのビットの要点は何ですか?また、「Then」(太字になっている)という言葉の使用は、ステートメントが必然的に以前のものから因果律を引き出すことを意味することに注意してください。