私が理解している限り、バッチノルムは、レイヤーへのすべての入力フィーチャを単位正規分布正規化します。平均と分散μは、σ 2は、現在のミニバッチのそれらの値を測定することによって推定されています。
正規化の後、入力はスケーリングされ、スカラー値によってシフトされます。
(私がここで間違っている場合は修正してください-ここで私は少し不確かになり始めます。)
と βはスカラー値で、バッチノルムレイヤーごとにそれぞれのペアがあります。それらは、バックプロップとSGDを使用して重みとともに学習されます。
私の質問は、これらのパラメーターは冗長ではないかということです。これは、レイヤー自体の重みによって、入力をスケーリングおよびシフトできるためです。つまり、
そして
その後
では、ネットワークにそれらを追加することのポイントは、すでにスケールとシフトを学習することができるのでしょうか。それとも私は完全に誤解していますか?