ドキュメントhttp://keras.io/optimizers/を見ると、SGDに減衰用のパラメーターがあります。私はこれが時間の経過とともに学習率を低下させることを知っています。しかし、私はそれが正確に機能する方法を理解することはできません。lr = lr * (1 - decay)
それは指数関数的であるような学習率を掛けた値ですか?また、モデルが使用している学習率をどのように確認できますか?model.optimizer.lr.get_value()
いくつかのエポックにわたってフィットを実行した後に印刷すると、減衰を設定しても、元の学習率が返されます。
また、運動量を使用するためにnesterov = Trueを設定する必要がありますか、または使用できる運動量の種類が2つだけありますか。たとえば、これを行うポイントがありますsgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)
self.iterations
、エポックの数ではなく、個々のSGDステップの数を指しますか?