人工知能 stochastic-policy

環境も確率的である場合、最適なポリシーは常に確率的ですか？

環境も確率的である場合、最適なポリシーは常に確率的（つまり、状態からアクションの確率分布へのマップ）ですか？直感的に、環境がある場合には、確定（エージェントが状態にある場合、であるsssと行動取るaaa、次の状態s′s′s'、そして最適なポリシーも決定論的である必要があり、常に同じで、どんなに時間ステップを）（つまり、アクションからの確率分布ではなく、状態からアクションへのマップである必要があります）。

10 reinforcement-learning stochastic-policy deterministic-policy policy environment

タグ付けされた質問 「stochastic-policy」

タグ付けされた質問「stochastic-policy」