値関数近似、特にディープQラーニングでは、最初に各アクションのQ値を予測することを理解しています。ただし、アクションが多い場合、このタスクは簡単ではありません。
ただし、ポリシーの反復では、各アクションに関連するソフトマックスベクトルも出力する必要があります。そのため、これを使用して連続アクションスペースを処理する方法を理解できません。
連続的な作用領域における価値関数近似よりも政策勾配法が好まれるのはなぜですか?
値関数近似、特にディープQラーニングでは、最初に各アクションのQ値を予測することを理解しています。ただし、アクションが多い場合、このタスクは簡単ではありません。
ただし、ポリシーの反復では、各アクションに関連するソフトマックスベクトルも出力する必要があります。そのため、これを使用して連続アクションスペースを処理する方法を理解できません。
連続的な作用領域における価値関数近似よりも政策勾配法が好まれるのはなぜですか?
回答:
しかし、ポリシーの反復でも、各アクションに関連するソフトマックスベクトルを出力する必要があります
これは厳密には当てはまりません。ソフトマックスベクトルは、ポリシーを表す1つの可能な方法であり、個別のアクションスペースに対して機能します。ここでのポリシーグラディエントアプローチと値関数アプローチの違いは、出力の使用方法にあります。値関数の場合、最大出力を見つけてそれを選択し(おそらく -greedily)、それはそのアクションを実行した場合の推定値になります。ポリシー関数の場合、出力を確率として使用して各アクションを選択しますが、そのアクションを実行することの価値がわかりません。
だから私はこれがどのように継続的なアクションスペースを扱うために使用できるのか理解していませんか?
方策勾配法では、ポリシーが可能任意のあなたのパラメータの関数ました:
確率分布を出力します
に関して区別できます
したがって、たとえば、ポリシー関数は
ここで、およびは、ニューラルネットワークなどで実装する関数です。ネットワークの出力は、状態値指定されたアクション値正規分布の説明です。ポリシーでは、これらの値で定義された正規分布からサンプリングする必要があります(NNはそのサンプリングを行わないため、通常はコードで追加する必要があります)。
連続的な作用領域における価値関数近似よりも政策勾配法が好まれるのはなぜですか?
連続アクション空間で状態/アクションのペアの値を推定することは依然として可能ですが、これはアクションの選択に役立ちません。アクション値近似を使用して -greedyポリシーを実装する方法を検討してください。推定される最適なアクションを見つけるために、すべてのアクションの選択肢に対してアクションスペースに対して最適化を実行する必要があります。これは可能ですが、非常に遅く/非効率になる可能性があります(極大値を見つけるリスクもあります)。
確率分布を放出するポリシーを直接操作すると、これらの分布のサンプリングが容易であれば、この問題を回避できます。したがって、正規分布などのパラメーターを制御するポリシーのようなものがよく表示されます。これは、これらの分布から簡単にサンプリングする方法が知られているためです。
価値関数メソッド(または批評家メソッド)では、関連する価値関数を推定した後、通常、次のオプションのいずれかを選択してアクションを選択します。
ポリシーグラディエント(またはアクターメソッド)では、2つのアプローチがあります。
上記から、継続的なアクションスペースが含まれる場合、PGははるかに妥当なソリューションを提供することがはっきりとわかります。
詳細については、修士論文PGメソッド: RiashatのSGD-DPGをお勧めします。彼はシルバーのDPG論文の共著者の1人と密接に協力し、論文は利用可能なMATLABコードで非常によく構成されています。ポリシーグラディエントメソッドは、数学が含まれているため(また、多くの場合、異なる表記法が使用されているため)、理解するのがはるかに困難です。ただし、Jan Petersから始めて、Silverのスライドに戻ることをお勧めします(私の意見:))。