バッチ正規化について
ペーパーバッチ正規化:ディープネットワークトレーニングの加速b y内部共変量シフトの削減(ここ)バッチ正規化のプロセスを説明する前に、ペーパーは関連する問題を説明しようとします(ここで扱われている正確な問題はわかりません)。 セクション2、パラ2からの抜粋: ネットワークを直接変更するか、最適化アルゴリズムのパラメーターをネットワークのアクティブ化の値に依存するように変更することにより、トレーニングステップごとまたは一定の間隔でアクティブ化を白くすることを検討できます(Wiesler et al。、2014; Raiko et al。、2012 ; Povey et al。、2014; Desjardins&Kavukcuoglu)。ただし、これらの変更が最適化ステップに散在している場合、勾配降下ステップは、正規化の更新を必要とする方法でパラメーターを更新しようとする場合があり、勾配ステップの影響が減少します。たとえば、学習されたバイアスを追加し、トレーニングデータに対して計算されたアクティベーションの平均を差し引くことによって結果を正規化する入力uを含むレイヤーを考えます。、X = X - E [ X ]bbbx^=x−E[x]x^=x−E[x]\hat x= x − E[x]ここで、 はトレーニングセットのの値のセットであり、 。x=u+b,X=x1...Nx=u+b,X=x1...Nx = u + b, X = {x_{1...N}}xxxE[x]=1N(∑ni=1xi)E[x]=1N(∑i=1nxi)E[x] = \frac 1 N(\sum_{i=1}^nx_i) 勾配降下ステップがE [x]のbへの依存を無視する場合、を更新しますb←b+Δbb←b+∆bb ← b + ∆b。ここで、Δb∝−∂l/∂x^∆b∝−∂l/∂x^∆b ∝ −\partial l/\partial\hat xです。次に、 u+(b+Δb)−E[u+(b+Δb)]=u+b−E[u+b](1)(1)u+(b+∆b)−E[u+(b+∆b)]=u+b−E[u+b]u + …