ゼロ中心でないアクティベーション関数が逆伝播で問題になるのはなぜですか？

私はここで次を読みました：

シグモイド出力はゼロ中心ではありません。これは、ニューラルネットワークの処理の後の層のニューロン（これについては後ほど説明します）がゼロ中心でないデータを受信するため、望ましくありません。これは、勾配降下中のダイナミクスに影響を与えます。ニューロンに入るデータが常に正の場合（たとえば、で $x > 0$ 要素単位）、逆伝播中の重み勾配は次のいずれかになります。すべて正またはすべて負（式全体の勾配依存） $f = w^Tx + b$ $w$ $f$ ）。これにより、重みの勾配更新に望ましくないジグザグダイナミクスが導入される可能性があります。ただし、これらの勾配がデータのバッチ全体で加算されると、重みの最終更新に可変符号が付き、この問題が多少緩和されることに注意してください。したがって、これは不便ですが、上記の飽和した活性化の問題と比較して、それほど深刻な結果はありません。

すべての $x>0$ （要素ごと）が $w$ すべて正またはすべて負の勾配になるのはなぜですか？

neural-networks deep-learning backpropagation

— アメリオ・バスケス・レイナ
ソース

また、CS231nのビデオを見るのとまったく同じ質問がありました。

— subwaymatch

f = \sum w_{i} x_{i} + b

$f=\sum w_ix_i+b$

\frac{d f}{d w_{i}} = x_{i}

$\frac{df}{dw_i}=x_i$

\frac{d L}{d w_{i}} = \frac{d L}{d f} \frac{d f}{d w_{i}} = \frac{d L}{d f} x_{i}

$\frac{dL}{dw_i}=\frac{dL}{df}\frac{df}{dw_i}=\frac{dL}{df}x_i$

$x_i>0$ $\dfrac{dL}{dw_i}$ $\dfrac{dL}{df}$

$w_1$ $w_2$

目標がたまたま北東にある場合、狭いスペースでの縦列駐車のように、ジグザグに移動するだけでそこに着くことができます。（私の図面を許してください）

したがって、勾配ベースの最適化では、すべてが正またはすべてが負の活性化関数（relu、sigmoid）が難しい場合があります。この問題を解決するために、バッチ/レイヤーの正規化のように、データを事前に正規化してゼロ中心にすることができます。

f = \sum w_{i} (x_{i} + b_{i}) .

$f=\sum w_i(x_i+b_i).$

\frac{d L}{d w_{i}} = \frac{d L}{d f} (x_{i} - b_{i})

$\frac{dL}{dw_i}=\frac{dL}{df}(x_i-b_i)$

x_{i}

$x_i$

— ドンルー
ソース

私が間違っているが、ここでJacobinのアイデアを使用するので、dL / dfの値をxの転置、つまりxTにしないでください。

— chinmay

f

$f$

w^{T} x + b

$w^Tx+b$

L

$L$

w

$w$

x

$x$

はい、それは私の終わりからの大きなタイプミスです。私はdf / dwを意味していました....しかし、ベクトルxと行ベクトルまたは列ベクトルに依存していると思います

— -chinmay

d L / d f

$d L/d f$

@floyd hi質問の更新をいくつか追加しました

— dontloo