Trusted Region Policy Optimization(TRPO)とProximal Policy Optimization(PPO)は、2つの最先端のポリシーグラディエントアルゴリズムです。
単一の連続アクションを使用する場合、通常、損失関数に確率分布(たとえば、ガウス分布)を使用します。大まかなバージョンは次のとおりです。
どこ報酬の利点である、によって特徴付けられるとここでは振り子の環境にいるかのように、ニューラルネットワークから出てくるもの:https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4 /main.py。
問題は、ポリシーグラディエントを使用した2+連続アクションに関する論文が見つからないことです(Q関数からグラディエントを転送することで別のアプローチを使用する俳優批評家のメソッドではありません)。
LunarLander環境で2つの連続アクションにTRPOを使用してこれを行う方法を知っていますか?
次のアプローチは、政策勾配損失関数に対して正しいですか?