ポリシー外学習とポリシー上学習の違いは何ですか?


79

人工知能の Webサイトでは、ポリシー外学習とポリシー上学習を次のように定義しています。

「ポリシー外の学習者は、エージェントのアクションとは無関係に最適なポリシーの値を学習します。Qラーニングは、ポリシー外の学習者です。ポリシー上の学習者は、探索ステップを含め、エージェントによって実行されるポリシーの値を学習します」

これらは私には何の違いももたらさないようですので、これについてあなたの説明をお願いしたいと思います。どちらの定義も同じように見えます。私が実際に理解したことは、モデルなしの学習とモデルベースの学習であり、それらが問題の学習と関係があるかどうかはわかりません。

エージェントのアクションとは無関係に最適なポリシーを学習することはどのように可能ですか?エージェントがアクションを実行するときにポリシーは学習されませんか?


1
stackoverflow.com/questions/6848828/…にコメントを追加しました。TL ; NRの部分も理解に役立つかもしれません。
zyxue

ここに良い説明がありますnb4799.neu.edu/wordpress/?p=1850
イヴァンクッシュ

また、SARSAのポリシーに準拠しないバリアントがあることも付け加えておきます。このペーパー(cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf)では、導入部でポリシーのオンとオフを確認し、予想されるsarsaについて説明します。また、予想されるポリシーの勾配(EPG)を検索して、2つのタイプを組み合わせたより一般的な理論を見つけます。
ジョシュアルバート

回答:


94

まず第一に、エージェントが貪欲な行動をしなければならない理由はありません。エージェントは探索したり、オプションに従うことができます。これは、オンポリシーとオフポリシー学習を区別するものではありません。

Qラーニングがポリシー外である理由は、次の状態 Q値と貪欲なアクションを使用してQ値を更新するためです。言い換えれば、貪欲なポリシーに従っていないという事実にもかかわらず、貪欲なポリシーが守られていると仮定して、国家と行動のペアのリターン(将来の報酬の合計割引)を推定します。sa a

SARSAがポリシーに準拠している理由は、次の状態 Q値と現在のポリシーのアクションを使用してQ値を更新するためです。現在のポリシーが引き続き守られていると仮定して、状態とアクションのペアのリターンを推定します。sa

現在のポリシーが貪欲なポリシーである場合、区別は消えます。ただし、このようなエージェントは探索されないため、適切ではありません。

オンラインで無料で入手できる本をご覧になりましたか? リチャード・S・サットンとアンドリュー・G・バルト。強化学習:はじめに。第2版​​、MIT Press、マサチューセッツ州ケンブリッジ、2018年。


8
いい説明!Qラーニングの例は、サットンの本で次のように定式化されています。「学習したアクション値関数Qは、従うポリシーに関係なく、最適なアクション値関数Q *に直接近似します。アルゴリズムの分析とは、早期の収束証明を有効にそれは状態行動ペアが訪問され、更新されたと判断するにはポリシーがまだ効果を持つ。。 "
シプリアンTomoiagă

3
一般的に、SuttonとBartoは非常に読みやすいとは思いません。彼らが提供する説明はあまりわかりにくいと思います。その本は、すべての場所でお勧めします私はなぜわからない
SN

@SN強化学習の多くの学生にとって、サットンとバルトは彼らが読む最初の本です。
ニールG

3
@JakubArnoldの最初のサットン&バルトの本は1998年のもので、深層強化学習については説明していません。第2版​​ではAlphaGoのようなもののみを取り上げていますが、本の焦点はより古典的なアプローチにあります。さらにRLリソースが必要な場合は、このリストをご覧ください。David SilverのビデオとPutermanの本はより親しみやすいのでお勧めします。より理論的な資料については、Bertsekasの本をお勧めします。DRLアルゴリズムとオリジナルの論文へのリンクについては、Spinning Up Webサイトをご覧ください。
ダグラスデリッツォメネゲッティ

1
@AlbertChen「つまり、この場合、探索に依存するかどうか」:いいえ、両方のアルゴリズムが探索するためです。違いは、Qの更新方法です。
ニールG

13

ポリシーに基づいた方法は、制御に使用しながらポリシーの値を推定します。

オフポリシー方法、ポリシーが動作を生成するために使用される、と呼ばれる行動方針を評価し、改善されたポリシーとは無関係であってもよい、と呼ばれる推定ポリシー。

この分離の利点は、推定ポリシーが決定論的(貪欲など)である可能性がある一方で、動作ポリシーがすべての可能なアクションをサンプリングし続けることができることです。

詳細については、Barto and Sutton 著 『Reinforcement Learning:An Introduction、first edition 』のセクション5.4および5.6を参照してください。


7

ポリシー外の方法とポリシー外の方法の違いは、最初に特定のポリシーに従う必要がないため、エージェントがランダムに動作することさえあり、それにもかかわらず、ポリシー外の方法でも最適なポリシーを見つけることができるということです。一方、オンポリシー方式は、使用されるポリシーに依存します。ポリシー外のQ-Learningの場合、探索中に使用されるポリシーとは無関係に最適なポリシーが見つかりますが、これは異なる状態に十分な回数アクセスする場合にのみ当てはまります。Watkinsによるオリジナルの論文で、Qラーニングのこの非常に素晴らしい特性を示す実際の証拠を見つけることができます。ただし、トレードオフがあり、ポリシー外の方法はポリシー外の方法よりも遅くなる傾向があります。ここに他の興味深い要約とのリンク 両方のタイプのメソッドのプロパティの


1
ポリシー外の方法は遅いだけでなく、ブートストラップ(つまり、Qラーニングが相互に推定値を作成する方法)および関数近似器(ニューラルネットワークなど)と組み合わせると不安定になる可能性があります。
ニールスレーター

7

まず、実際のポリシー(表される)はどういう意味ですか? ポリシーは、アクションを指定それは状態で撮影され、(またはより正確には、行動することを、確率である、状態で撮影された)。π
asπas

第二に、どんな種類の学習がありますか?
1.評価の機能を:将来の割引報酬の合計、予測アクションで、状態です。 2. 最大の報酬をもたらす(実際には、)を見つけます。Q(s,a)as
ππ(a|s)

元の質問に戻ります。オンポリシーおよびオフポリシー学習は、最初のタスクである評価にのみ関連しています。Q(s,a)

違いはこれです:
オン政策学習機能は、アクションから学習され、私たちは私たちの現在のポリシー利用しました。 ではオフ政策学習機能は、さまざまなアクション(例えば、ランダムアクション)から学習されます。ポリシーさえ必要ありません!Q(s,a)π
Q(s,a)

これは、オンポリシーSARSAアルゴリズム の更新関数です、ここではアクションであり、ポリシーに従って実行されました。Q(s,a)Q(s,a)+α(r+γQ(s,a)Q(s,a))aπ

オフポリシーQ学習アルゴリズムの更新関数と比較してください: 、ここではすべてのアクションで、状態プローブされました。Q(s,a)Q(s,a)+α(r+γmaxaQ(s,a)Q(s,a))as


1

サットンの本から:「前のセクションのポリシーに基づくアプローチは実際には妥協です。最適なポリシーではなく、まだ探求している最適に近いポリシーのアクション値を学習します。より簡単なアプローチは、2つのポリシーを使用することです、学習され、最適なポリシーになるものと、より探索的であり、動作を生成するために使用されるものです。学習されるポリシーはターゲットポリシーと呼ばれ、動作を生成するために使用されるポリシーは動作ポリシーと呼ばれます。この場合、学習はターゲットポリシーのデータから行われ、全体のプロセスはポリシーラーニングと呼ばれます。


この説明に従えば、Qラーニングがポリシー
Albert Chen
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.