タグ付けされた質問 「dqn」

1
DQNに2つの異なるネットワークが必要なのはなぜですか?
私はを経たこの DQNの実装と私はライン124および125上の2つの異なるQネットワークが初期化されていることがわかります。私の理解から、私は1つのネットワークが適切なアクションを予測し、2番目のネットワークがベルマン誤差を見つけるためのターゲットQ値を予測すると思います。 Q値を予測するだけの単一のネットワークを作成して、両方の場合に使用できないのはなぜですか?計算時間を短縮するために行われたと私は推測しています。それ以外の場合は、各アクションのq値を見つけて、最適なものを選択する必要があります。これが唯一の理由ですか?何か不足していますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.