Qラーニングがアクション値を過大評価するのはなぜですか?


8

標準のQ学習がq値を過大評価する傾向がある理由についての説明を見つけるのが困難です(二重Q学習を使用することで対処されます)。私が見つけた唯一の情報源は、この過大評価が発生する理由を正確に説明していません。

たとえば、Qラーニングに関するWikipediaの記事は次のように述べています。

概算された最大アクション値がQラーニングの更新で使用されるため、ノイズの多い環境では、Qラーニングがアクション値を過大評価し、学習を遅くすることがあります。

これは何を意味するのでしょうか?Qラーニングは理解できますが、上記は理解できません。最大q値の使用が過大評価を引き起こすのはなぜですか?

ありがとう!

回答:


4

Q(s,a)=r+γmaxa[Q(s,a)]

Q値は非常にノイズが多いため、すべてのアクションで最大値を取ると、おそらく過大評価された値を取得しています。このように考えて、サイコロの予想値は3.5ですが、サイコロを100回投げて、すべての投げの最大値をとると、3.5より大きい値を取る可能性が高くなります(可能なすべてのアクション値を考えてください)ダイスロールの状態sで)。

すべての値が等しく過大評価されている場合、問題はQ値の違いであるため、これは問題になりません。しかし、過大評価が均一でない場合、これは学習を遅くする可能性があります(あなたがあなたが良いと思うが、そうではない状態を探求することに時間を費やすため)

提案された解決策(Double Q-learning)は、異なるサンプルでトレーニングされた2つの異なる関数近似器を使用することです。1つは最適なアクションの選択用で、もう1つはこのアクションの値の計算用です。2つの関数近似器は異なるサンプルを見たため、彼らが同じ行動を過大評価することはまずありません。


「2つの関数近似器が異なるサンプルを見た」ことが役立つのはなぜですか?
Albert Chen

1
関数近似器の1つがアクションa1を過大評価するサンプルを表示し、もう1つはアクションa2を過大評価するサンプルを表示する場合があるためです。重要なことは、同じアクションを過大評価しないことです
lgvaz

3

私は強化学習についてはあまり詳しくありませんが、あなたが引用しているWikipediaの記事の次の行(現在)は、論文Double Q-learning(NIPS 2010)を参照しています。その論文の要約はこう述べています

これらの過大評価は、Qラーニングが最大アクション値を最大期待アクション値の近似として使用するために導入される正のバイアスから生じます。

一緒に、これらは、関数が実際に確率的である場合、状態とアクションのペアから生じる観測された報酬がそれらに関連付けられたいくつかの(0平均)ノイズを持つことを示しているようです。。次に、はに基づいて更新されるため、最大値は、高報酬および/または大きな正のノイズ実現組み合わせになる傾向があります。を想定してを無視すると、の値は過大評価になる傾向があります。Qr^(s,a)r^=r+ϵQmaxaQoldr ϵrmaxr^maxϵQ

(前述のように、私はこの領域に精通しておらず、ウィキペディアと上記の要約を一見しただけなので、この解釈は間違っている可能性があります。)


0

まず、サットンとバルトの本から引用したい

...これらのアルゴリズムでは、推定値を超える最大値が最大値の推定値として暗黙的に使用されます。これにより、有意な正のバイアスが生じる可能性があります。理由を確認するために、真の値q(s、a)がすべてゼロであるが、推定値Q(s、a)が不確かであり、上記のいくつかといくつかに分布している多くのアクションaがある単一の状態sを考えますゼロ以下。

少しあいまいです。これは簡単な例です。ここで、Q1(s、X)= Q2(s、X)= 0ですが、実際には、値は不確かな場合があります。

Q1(s、A)= 0.1、Q1(s、B)= 0、Q1(s、C)= -0.1

Q2(s、A)= -0.1、Q2(s、B)= 0.1、Q2(s、C)= 0

Q1のみを更新する場合は、常にsでAを選択して更新する傾向があります。しかし、Q1を更新するためにmax_a Q2(s、a)を選択すると、Q2が状況を補うことができます。また、Q2を別の方法でトレーニングするには、Q1を使用する必要があります。Q1とQ2は異なるデータセットを使用して個別にトレーニングされるため、Q2のノイズはQ1のノイズとは無関係です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.