回答:
計算時間を短縮するために行われたと私は推測しています。それ以外の場合は、各アクションのq値を見つけて、最適なものを選択する必要があります。
わずかな増加(2つのネットワークで使用される追加のメモリによる)以外は、計算時間に実際の影響はありません。私が想定しているターゲットネットワークの結果をキャッシュすることはできますが、ほとんどの環境ではそれはおそらく価値がなく、それを実行する実装を見たことがありません。
何か不足していますか?
これは、関数近似(ニューラルネットワークなど)を使用する場合のQ学習アルゴリズムの安定性に関係しています。個別のターゲットネットワークを使用し、多くのステップごとに最新の学習パラメーターのコピーを更新することで、暴走バイアスがブートストラップによるシステムの数値的支配を防ぎ、推定Q値が発散するのを防ぎます。
(S, A, R, S'
)のデータポイントの1つが、現在の不十分な過大評価をQ(S', A')
悪化させると想像してください。たぶんS', A'
まだ訪問されていないか、R
偶然に、これまでに見られた価値が平均より高いのかもしれません。(S,A)
エクスペリエンスの再生でサンプルが複数回切り取られた場合、への更新Q(S,A)
はに基づいてR + max_a Q(S',a)
いるため、毎回再び悪化します。ターゲットネットワークを修正することで、そのような過大評価によって生じる可能性のある損傷を制限し、学習ネットワークが収束して、最初のバイアスをさらに失う時間を与えます。
この点で、別のターゲットネットワークを使用することには、リプレイを体験することと非常に似た目的があります。それ以外の場合は収束に問題があるアルゴリズムを安定させます。
DQNに「ダブルラーニング」を使用して、最大化バイアスという別の問題に対処することもできます。その場合、4つのニューラルネットワークを使用したDQN実装が表示されることがあります。