私はバッチ正規化(BN)論文(1)を読んでいて、モデルの精度を追跡するために移動平均を使用する必要があることを理解していませんでした。彼らがまさにやっていること。
私の理解(これは間違っている)に、論文では、モデルがトレーニングを終了した後、ミニバッチ統計ではなく人口統計を使用していることに言及しています。偏りのない推定についての議論の後(それは私には接線のようであり、なぜそれについて話すのか理解できない)、彼らは行って言う:
代わりに移動平均を使用して、トレーニング中のモデルの精度を追跡します。
それは私を混乱させている部分です。なぜ移動平均を行ってモデルの精度とどのデータセットを推定するのですか?
通常、人々はモデルの一般化を推定するために行うことで、モデルの検証エラーを追跡します(そして、勾配降下を早期に停止して正則化する可能性があります)。ただし、バッチの正規化はまったく異なることを行っているようです。誰かが何を、なぜ違うことをしているのかを明確にできますか?
1:Ioffe S.およびSzegedy C.(2015)、
「バッチ正規化:内部共変量シフトの削減によるディープネットワークトレーニングの加速」、
第32回機械学習に関する国際会議の議事録、リール、フランス、2015年。
機械学習研究ジャーナル: W&CPボリューム37