タグ付けされた質問 「stochastic-policy」

2
ポリシーは強化学習において常に決定論的ですか?
強化学習では、ポリシーは常に確定的ですか、それともアクション(私たちがサンプリングしたもの)に対する確率分布ですか?ポリシーが決定論的である場合、なぜ値関数ではないのですか?これは、特定のポリシーの特定の状態で次のように定義されますππ\pi Vπ(s)=E[∑t>0γtrt|s0=s,π]Vπ(s)=E[∑t>0γtrt|s0=s,π]V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 = s, \pi\right] ポイント出力? 上記の定義では、私たちは期待しています。この期待はどうですか? ポリシーが別のルートにつながることはありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.