PyTorchでAdamオプティマイザーを使用して学習率を低下させると、損失が突然跳ね上がります
オプティマイザー(を使用)と、シングルチャネルオーディオソース分離タスクでauto-encoderネットワークをトレーニングしています。学習率を1要素ずつ減衰させると、ネットワーク損失は急激に跳ね上がり、次の学習率の減衰まで減少します。Adamamsgrad=TrueMSE loss ネットワークの実装とトレーニングにPytorchを使用しています。 Following are my experimental setups: Setup-1: NO learning rate decay, and Using the same Adam optimizer for all epochs Setup-2: NO learning rate decay, and Creating a new Adam optimizer with same initial values every epoch Setup-3: 0.25 decay in learning rate every 25 epochs, and Creating …