2
バッチ正規化は、トレーニング後に人口統計をどのように計算しますか?
私はバッチ正規化(BN)ペーパー(1)を読んでいて、それは言った: このため、ネットワークがトレーニングされたら、正規化を使用します バツ^=x − E[ x ]Va r [ x ] + ϵ−−−−−−−−√x^=x−E[x]Var[x]+ϵ\hat{x} = \frac{x - E[x]}{ \sqrt{Var[x] + \epsilon}}ミニバッチではなく、人口統計を使用します。 私の質問は、どのようにしてこの人口統計をどのように計算し、どのトレーニングセット(テスト、検証、トレーニング)を超えているかです。私はそれが何を意味するのかは知っていたと思いましたが、しばらくして、これがどのように計算されるのかわかりません。私はそれがどのように行うかはわかりませんが、それは真の平均と分散を推定しようとしていると思います。おそらく、データセット全体に従って平均と分散を計算し、それらの瞬間を推論に使用します。 しかし、私が間違っているのではないかと疑ったのは、同じセクションの後半の不偏分散の推定についての彼らの議論です。 不偏分散推定を使用します Va r [ x ] =メートルm − 1⋅EB[σ2B]Var[x]=mm−1⋅EB[σB2]Var[x] = \frac{m}{m-1} \cdot E_{\mathcal{B}}[\sigma^2_{\mathcal{B}}] サイズのミニバッチのトレーニングに期待が集まっている場所 メートルmm そして σ2BσB2\sigma^2_{\mathcal{B}} それらは標本分散です。 私たちは人口統計について話しているので、この紙面上のコメントは、どこからともなく(私にとって)出てきたようなものであり、彼らが何について話しているのかわかりませんでした。彼らは(ランダムに)トレーニング中に不偏推定値を使用することを明確にしていますか、それとも不偏推定値を使用して人口統計を計算していますか? 1:Ioffe S.とSzegedy C.(2015)、 「バッチ正規化:内部共変量シフトの削減によるディープネットワークトレーニングの加速」、 第32回機械学習に関する国際会議の議事録、リール、フランス、2015。Journalof Machine Learning Research: W&CPボリューム37