1
複数の連続アクションの場合にポリシーの勾配をどのように適用できますか?
Trusted Region Policy Optimization(TRPO)とProximal Policy Optimization(PPO)は、2つの最先端のポリシーグラディエントアルゴリズムです。 単一の連続アクションを使用する場合、通常、損失関数に確率分布(たとえば、ガウス分布)を使用します。大まかなバージョンは次のとおりです。 L (θ )= ログ(P(a1))A 、L(θ)=ログ(P(a1))あ、L(\theta) = \log(P(a_1)) A, どこああA報酬の利点である、P(a1)P(a1)P(a_1)によって特徴付けられるμμ\muとσ2σ2\sigma^2ここでは振り子の環境にいるかのように、ニューラルネットワークから出てくるもの:https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4 /main.py。 問題は、ポリシーグラディエントを使用した2+連続アクションに関する論文が見つからないことです(Q関数からグラディエントを転送することで別のアプローチを使用する俳優批評家のメソッドではありません)。 LunarLander環境で2つの連続アクションにTRPOを使用してこれを行う方法を知っていますか? 次のアプローチは、政策勾配損失関数に対して正しいですか? L (θ )= (logP(a)+ ログP(a2))∗ AL(θ)=(ログP(a)+ログP(a2))∗あL(\theta) = (\log P(a_) + \log P(a_2) )*A