標準のQ学習がq値を過大評価する傾向がある理由についての説明を見つけるのが困難です(二重Q学習を使用することで対処されます)。私が見つけた唯一の情報源は、この過大評価が発生する理由を正確に説明していません。
たとえば、Qラーニングに関するWikipediaの記事は次のように述べています。
概算された最大アクション値がQラーニングの更新で使用されるため、ノイズの多い環境では、Qラーニングがアクション値を過大評価し、学習を遅くすることがあります。
これは何を意味するのでしょうか?Qラーニングは理解できますが、上記は理解できません。最大q値の使用が過大評価を引き起こすのはなぜですか?
ありがとう!