人工知能 trpo

複数の連続アクションの場合にポリシーの勾配をどのように適用できますか？

Trusted Region Policy Optimization（TRPO）とProximal Policy Optimization（PPO）は、2つの最先端のポリシーグラディエントアルゴリズムです。単一の連続アクションを使用する場合、通常、損失関数に確率分布（たとえば、ガウス分布）を使用します。大まかなバージョンは次のとおりです。 L （θ ）= ログ（P（a1））A 、L（θ）=ログ⁡（P（a1））あ、L(\theta) = \log(P(a_1)) A, どこああA報酬の利点である、P（a1）P（a1）P(a_1)によって特徴付けられるμμ\muとσ2σ2\sigma^2ここでは振り子の環境にいるかのように、ニューラルネットワークから出てくるもの：https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4 /main.py。問題は、ポリシーグラディエントを使用した2+連続アクションに関する論文が見つからないことです（Q関数からグラディエントを転送することで別のアプローチを使用する俳優批評家のメソッドではありません）。 LunarLander環境で2つの連続アクションにTRPOを使用してこれを行う方法を知っていますか？次のアプローチは、政策勾配損失関数に対して正しいですか？ L （θ ）= （logP（a）+ ログP（a2））∗ AL（θ）=（ログ⁡P（a）+ログ⁡P（a2））∗あL(\theta) = (\log P(a_) + \log P(a_2) )*A

11 deep-learning reinforcement-learning trpo

タグ付けされた質問 「trpo」

タグ付けされた質問「trpo」