バッチ正規化を注意深く行う必要がある理由の例の説明は何ですか?
私はバッチ正規化ペーパー [1]を読んでいて、正規化を慎重に行う必要がある理由を示すために、例を示すセクションが1つありました。正直なところ、この例がどのように機能するのか理解できません。私ができる限り彼らの論文を理解することに本当に興味があります。最初にここで引用させてください: たとえば、学習バイアスbを追加し、トレーニングデータに対して計算されたアクティベーションの平均を減算することによって結果を正規化する入力uを含むレイヤーを考えます。ここで、 はトレーニングセットのの値のセットであり、です。勾配降下工程は、の依存性は無視された場合はで、それが更新され、。次に、です。したがって、への更新の組み合わせx^=x−E[x]x^=x−E[x]\hat{x} = x − E[x]x=u+b,X={x1...N}x=u+b,X={x1...N}x=u+b, X =\{x_1...N \}xxxE[x]=∑Ni=1xiE[x]=∑i=1NxiE[x] = \sum^N_{i=1} x_iE[x]E[x] E[x] bbbb←b+Δ>bb←b+Δ>bb ← b + \Delta > bΔb∝−∂l∂x^Δb∝−∂l∂x^\Delta b \propto -\frac{\partial l}{\partial \hat{x}} u+(b+Δb)−E[u+(b+Δb)]=u+b−E[u+b]u+(b+Δb)−E[u+(b+Δb)]=u+b−E[u+b]u+(b+\Delta b)−E[u+(b+\Delta b)] = u+b−E[u+b]bbb その後の正規化の変更により、レイヤーの出力も変更されず、その結果、損失も発生しませんでした。 私はメッセージを理解していると思います。正規化を適切に行わなければ、それは悪いことです。彼らが使用している例がこれをどのように描写しているかは私にはわかりません。 困惑している点について具体的に説明していないと、誰かを助けるのは難しいことは承知しているので、次のセクションで、説明について混乱していることを説明します。 私の混乱のほとんどは表記法かもしれないと思うので、はっきりさせておきます。 まず、筆者を混乱させるものの1つは、著者がネットワーク内にユニットを持つことの意味と、アクティベーションとは何かです。通常、アクティベーションは次のように考えます。 x(l)=a(l)=θ(z(l))=θ(⟨w(l),x(l−1)⟩+b(l))x(l)=a(l)=θ(z(l))=θ(⟨w(l),x(l−1)⟩+b(l)) x^{(l)} = a^{(l)} = \theta(z^{(l)}) = \theta( \langle w^{(l)}, x^{(l-1)} \rangle + …