強化学習では、ポリシーは常に確定的ですか、それともアクション(私たちがサンプリングしたもの)に対する確率分布ですか?ポリシーが決定論的である場合、なぜ値関数ではないのですか?これは、特定のポリシーの特定の状態で次のように定義されます
ポイント出力?
上記の定義では、私たちは期待しています。この期待はどうですか?
ポリシーが別のルートにつながることはありますか?
強化学習では、ポリシーは常に確定的ですか、それともアクション(私たちがサンプリングしたもの)に対する確率分布ですか?ポリシーが決定論的である場合、なぜ値関数ではないのですか?これは、特定のポリシーの特定の状態で次のように定義されます
ポイント出力?
上記の定義では、私たちは期待しています。この期待はどうですか?
ポリシーが別のルートにつながることはありますか?
回答:
ここには複数の質問があります。1.ポリシーは常に決定論的ですか?2.ポリシーが決定論的である場合、値も決定論的であるべきではありませんか?3.価値関数の見積もりに期待されることは何ですか?最後の質問はあまり明確ではありません。「ポリシーにより、現在の値が異なるルートにつながる可能性はありますか?」しかし、私はあなたが意味していると思います:4.ポリシーが異なるルートにつながることができますか?
ポリシーは関数であり、確定的または確率的のいずれかです。特定の状態が与えられたときに実行するアクションを決定します。分布 は確率的ポリシーに使用され、マッピング関数は決定論的ポリシーに使用されますは可能な状態のセット、は可能なアクションのセットです。π :S → A S A
価値関数は確定的ではありません。(州の)値は、その州から開始してポリシーに従い続ける場合に期待される報酬です。ポリシーが決定論的であるとしても、報酬関数と環境はそうではないかもしれません。
その式の期待は、状態から始まるすべての可能なルートに渡っています。通常、ルートまたはパスは複数のステップに分解され、値推定器のトレーニングに使用されます。これらのステップは、タプル(状態、アクション、報酬、次の状態)で表すことができます。(s 、a 、r 、s ′)
これは回答2に関連しています。通常、環境は確定的ではないため、ポリシーはさまざまなパス(確定的ポリシーであっても)につながる可能性があります。