ポリシーは強化学習において常に決定論的ですか?


8

強化学習では、ポリシーは常に確定的ですか、それともアクション(私たちがサンプリングしたもの)に対する確率分布ですか?ポリシーが決定論的である場合、なぜ値関数ではないのですか?これは、特定のポリシーの特定の状態で次のように定義されますπ

Vπ(s)=E[t>0γtrt|s0=s,π]

ポイント出力?

上記の定義では、私たちは期待しています。この期待はどうですか?

ポリシーが別のルートにつながることはありますか?


1
StackOverflowに関する関連質問:stackoverflow.com/q/46260775/712995
Maxim

回答:


6

ここには複数の質問があります。1.ポリシーは常に決定論的ですか?2.ポリシーが決定論的である場合、値も決定論的であるべきではありませんか?3.価値関数の見積もりに期待されることは何ですか?最後の質問はあまり明確ではありません。「ポリシーにより、現在の値が異なるルートにつながる可能性はありますか?」しかし、私はあなたが意味していると思います:4.ポリシーが異なるルートにつながることができますか?

  1. ポリシーは関数であり、確定的または確率的のいずれかです。特定の状態が与えられたときに実行するアクションを決定します。分布 は確率的ポリシーに使用され、マッピング関数は決定論的ポリシーに使用されますは可能な状態のセット、は可能なアクションのセットです。π S A S Aπ(as)π:SASA

  2. 価値関数は確定的ではありません。(州の)値は、その州から開始してポリシーに従い続ける場合に期待される報酬です。ポリシーが決定論的であるとしても、報酬関数と環境はそうではないかもしれません。

  3. その式の期待は、状態から始まるすべての可能なルートに渡っています。通常、ルートまたはパスは複数のステップに分解され、値推定器のトレーニングに使用されます。これらのステップは、タプル(状態、アクション、報酬、次の状態)で表すことができます。s a r s s(s,a,r,s)

  4. これは回答2に関連しています。通常、環境は確定的ではないため、ポリシーはさまざまなパス(確定的ポリシーであっても)につながる可能性があります。


確定的ではない環境の例を教えていただけますか?ご覧のSass
とおり

1
古典的な例は、1ステップ(アクション)だけ左に移動するロボットですが、表面は滑りやすい(氷の上を歩く)ため、実際には2ステップ左に移動します。実際、そのような環境は標準であり、広く研究されています。私の例は、実際によく知られている「おもちゃ」環境です:gym.openai.com/envs/FrozenLake-v0
AD

そのため、状態とアクション、に対する確率分布につながります。わかった?a s 'sas
MiloMinderbinder 2017

はい、が確率的であるように、も確率的です。P S " | p(as)p(ss,a)
AD

あと2つだけ:1.は確率的ポリシーでのみ確率的ですよね?2.投稿された他の回答が、期待が一部引き継がれるものについて間違っていることを確認できますか?p(a|s)
MiloMinderbinder 2017

1

ポリシーは、確率論的または決定論的とすることができます。条件が与えられた場合、トレーニングの例よりも期待が高まっています。値関数はリターンの推定値であり、それが期待値です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.