回答:
ただし、どちらのアプローチも私と同じように見えます。つまり、アクションの最大報酬を予測すること(Qラーニング)は、アクションを直接行う確率を予測すること(PG)と同等です。
どちらの方法も、理論的にはマルコフ決定プロセスの構造によって駆動され、その結果、同様の表記法と概念を使用します。さらに、単純な解決可能な環境では、両方の方法が同じ、または少なくとも同等の最適なポリシーをもたらすことを期待する必要があります。
ただし、実際には内部的に異なります。アプローチ間の最も基本的な違いは、学習中と出力(学習ポリシー)の両方で、アクション選択にアプローチする方法です。Qラーニングの目標は、最大値を見つけることにより、アクションの個別のセットから単一の決定的アクションを学習することです。ポリシーの勾配、およびその他の直接的なポリシー検索では、目標は状態からアクションへのマップを学習することです。これは確率的であり、連続アクションスペースで機能します。
その結果、ポリシーグラデーションメソッドは、値ベースのメソッドではできない問題を解決できます。
大きくて連続的なアクションスペース。ただし、値ベースの方法では、これは依然として離散化で近似できます。これは悪い選択ではありません。ポリシー勾配のマッピング関数は、実際には何らかの近似器でなければならないからです。
確率的ポリシー。値ベースの方法では、Scissor / Paper / Stoneなどの特定の確率を必要とする最適なポリシーが確率的である環境を解決できません。これは、Qラーニングにアクションの確率を制御するトレーニング可能なパラメーターがないため、TD学習の問題定式化は決定論的エージェントが最適であると想定しているためです。
ただし、Qラーニングなどの値ベースの方法には次のような利点もあります。
速度。ブートストラップを行うTD学習方法は、進行状況を評価するために環境から純粋にサンプリングする必要がある方法よりも、ポリシーを学習する方がはるかに高速です。
1つまたは他のアプローチを使用したい理由は他にもあります。
エージェントに関連付けられている他の計画プロセスを支援するために、プロセスの実行中に予測されるリターンを知りたい場合があります。
問題の状態表現は、値関数またはポリシー関数のどちらかに簡単に役立ちます。価値関数は状態と非常に単純な関係を持ち、ポリシー関数は非常に複雑で学習しにくいことがあります。逆もまた同様です。
Actor-Criticなど、一部の最先端のRLソルバーは実際に両方のアプローチを併用しています。これは、価値の強みとポリシーの勾配方法を組み合わせたものです。