以前はローカルマシンでモデルをトレーニングしていましたが、メモリはバッチごとに10のサンプルで十分です。ただし、モデルをAWSに移行し、より大きなGPU(Tesla K80)を使用した場合、バッチサイズ32に対応できました。しかし、AWSモデルはすべて非常に不十分であり、過剰適合を示しています。なぜこれが起こるのですか?
私が現在使用しているモデルはinception-resnet-v2モデルであり、対象としている問題はコンピュータービジョンモデルです。私が考えることができる1つの説明は、それがおそらくバッチノルムプロセスであるため、バッチイメージにより慣れているということです。緩和策として、batch_normの減衰移動平均を減らしました。
また、dropoutをbatch_normと一緒に使用する必要がありますか?この習慣は一般的ですか?
私のトレーニング画像は約5000ですが、約60エポックでトレーニングしました。これはよく考慮されますか、それとも早くトレーニングを中止する必要がありますか?
3
:私はこれの重複を考えるstats.stackexchange.com/questions/164876
—
usεr11852