複数の連続アクションの場合にポリシーの勾配をどのように適用できますか?


11

Trusted Region Policy Optimization(TRPO)とProximal Policy Optimization(PPO)は、2つの最先端のポリシーグラディエントアルゴリズムです。

単一の連続アクションを使用する場合、通常、損失関数に確率分布(たとえば、ガウス分布)を使用します。大まかなバージョンは次のとおりです。

Lθ=ログPa1

どこ報酬の利点である、Pa1によって特徴付けられるμσ2ここでは振り子の環境にいるかのように、ニューラルネットワークから出てくるもの:https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4 /main.py

問題は、ポリシーグラディエントを使用した2+連続アクションに関する論文が見つからないことです(Q関数からグラディエントを転送することで別のアプローチを使用する俳優批評家のメソッドではありません)。

LunarLander環境で2つの連続アクションにTRPOを使用してこれを行う方法を知っていますか?

次のアプローチは、政策勾配損失関数に対して正しいですか?

Lθ=ログPa+ログPa2

回答:


6

既に述べたように、Actor-Criticが選択するアクションは通常、正規分布からのものであり、現在の状態に基づいて適切な平均と標準偏差を見つけるのがエージェントの仕事です。多くの場合、必要な継続アクションは1つだけなので、この1つの分布で十分です。ただし、ロボット工学などのドメインがAIとより統合されるようになるにつれて、2つ以上の継続的なアクションが必要な状況がますます問題になっています。

この問題には2つの解決策があります。最初で最も一般的なのは、すべての連続アクションに対して、独自の1次元平均と標準偏差を学習する個別のエージェントが存在することです。その状態の一部には、他のエージェントのアクションも含まれ、システム全体の動作のコンテキストを提供します。私たちのラボでは通常、これを行います。ここでは、ロボットアームを動かすために3人の俳優批評家が協力してこのアプローチを説明する論文を紹介します。

2+2×

これはより一般的な答えですが、関連する問題であなたや他の人を助けるはずです。


1
Jadenはすばらしい回答に感謝します。1.マルチエージェントアーキテクチャを試しましたが、あまり効率的ではありません。収束にかなり時間がかかります。2.多変量分布も私には明らかなようです、ありがとう。
Evalds Urtans 2017

1
アプリケーションとアーキテクチャに応じて(ディープネットの場合)、エージェントに低レベルの機能を共有させ、独自の価値関数に分岐させることができます。さらに、1人の評論家と複数のアクターを持つことも、アーキテクチャーを増やす方法の1つです。
Jaden Travnik

現時点では、アクター批評家ではなく、TRPO(単なる政策勾配法)にあなたの提案を適用したいと思います。私は評論家から俳優へのグラディエント転送にあまり自信がありません-多くの実装で、収束しても動作しないように見えることが多くあります。
Evalds Urtans 2017

1
このnoobの質問で申し訳ありません。これは、アクターがポリシー関数を持ち、ポリシーグラディエントメソッドによってトレーニングされる、アクタークリティックメソッド(アクターが複数の同時連続アクションを実行できる場合)にどのように適用されますか?@JadenTravnik新しい見出しの下の回答でそれを説明できますか?
Gokul NC、2018
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.