3
環境も確率的である場合、最適なポリシーは常に確率的ですか?
環境も確率的である場合、最適なポリシーは常に確率的(つまり、状態からアクションの確率分布へのマップ)ですか? 直感的に、環境がある場合には、確定(エージェントが状態にある場合、であるsssと行動取るaaa、次の状態s′s′s'、そして最適なポリシーも決定論的である必要があり、常に同じで、どんなに時間ステップを) (つまり、アクションからの確率分布ではなく、状態からアクションへのマップである必要があります)。