Qラーニングとポリシーグラデーションメソッドの関係は何ですか？

私の知る限り、RLの問題を解決するために使用される2つの主要なアプローチは、Qラーニングとポリシーグラデーション（PG）です。Qラーニングは特定の状態で実行された特定のアクションの報酬を予測することを目的としていますが、ポリシーの勾配はアクション自体を直接予測します。

ただし、どちらのアプローチも私と同じように見えます。つまり、アクションの最大報酬の予測（Qラーニング）は、アクションを直接行う確率（PG）の予測と同等です。損失が逆伝播する方法に違いはありますか？

— テハス・ラムダス
ソース

ただし、どちらのアプローチも私と同じように見えます。つまり、アクションの最大報酬を予測すること（Qラーニング）は、アクションを直接行う確率を予測すること（PG）と同等です。

どちらの方法も、理論的にはマルコフ決定プロセスの構造によって駆動され、その結果、同様の表記法と概念を使用します。さらに、単純な解決可能な環境では、両方の方法が同じ、または少なくとも同等の最適なポリシーをもたらすことを期待する必要があります。

ただし、実際には内部的に異なります。アプローチ間の最も基本的な違いは、学習中と出力（学習ポリシー）の両方で、アクション選択にアプローチする方法です。Qラーニングの目標は、最大値を見つけることにより、アクションの個別のセットから単一の決定的アクションを学習することです。ポリシーの勾配、およびその他の直接的なポリシー検索では、目標は状態からアクションへのマップを学習することです。これは確率的であり、連続アクションスペースで機能します。

その結果、ポリシーグラデーションメソッドは、値ベースのメソッドではできない問題を解決できます。

大きくて連続的なアクションスペース。ただし、値ベースの方法では、これは依然として離散化で近似できます。これは悪い選択ではありません。ポリシー勾配のマッピング関数は、実際には何らかの近似器でなければならないからです。
確率的ポリシー。値ベースの方法では、Scissor / Paper / Stoneなどの特定の確率を必要とする最適なポリシーが確率的である環境を解決できません。これは、Qラーニングにアクションの確率を制御するトレーニング可能なパラメーターがないため、TD学習の問題定式化は決定論的エージェントが最適であると想定しているためです。

ただし、Qラーニングなどの値ベースの方法には次のような利点もあります。

$p(a \mid s, \theta)$ $\theta$
速度。ブートストラップを行うTD学習方法は、進行状況を評価するために環境から純粋にサンプリングする必要がある方法よりも、ポリシーを学習する方がはるかに高速です。

1つまたは他のアプローチを使用したい理由は他にもあります。

エージェントに関連付けられている他の計画プロセスを支援するために、プロセスの実行中に予測されるリターンを知りたい場合があります。
問題の状態表現は、値関数またはポリシー関数のどちらかに簡単に役立ちます。価値関数は状態と非常に単純な関係を持ち、ポリシー関数は非常に複雑で学習しにくいことがあります。逆もまた同様です。

Actor-Criticなど、一部の最先端のRLソルバーは実際に両方のアプローチを併用しています。これは、価値の強みとポリシーの勾配方法を組み合わせたものです。

— ニール・スレーター
ソース

俳優批評家が両方の方法の強みを組み合わせていると言うとき、あなたはどういう意味ですか？私の理解では、俳優は状態に基づいて取るべき最善の行動を評価し、評論家はその状態の価値を評価してから、俳優に報酬を与えます。それらを単一の「ポリシー」ユニットとして扱うことは、依然としてポリシーの勾配のように見えます。なぜこれが実際にQラーニングに似ているのですか？

— グルザー

@Guizar：評論家は、値ベースの方法（Qラーニングなど）を使用して学習します。したがって、全体的に、アクター批評家は価値のある手法とポリシーグラディエントの手法の組み合わせであり、組み合わせの恩恵を受けます。「バニラ」PGを超える顕著な改善点の1つは、各エピソードの終わりではなく、各ステップで勾配を評価できることです。このテーマに関するより詳細な回答をお探しの場合は、サイトで質問してください。

— ニール・スレーター

@Guizar：実際には、アクターの批評家（アクション値に基づいてベースラインを調整する）と、通常はより単純な状態値である批評家との間で混乱しているため（Qラーニングなど）をスクラッチします。ただし、私の説明はまだ同じですが、評論家は通常、値ベースのTDメソッドを使用して更新されます。Qラーニングもその例です。

— ニール・スレーター