回答:
環境も確率的である場合、最適なポリシーは常に確率的(つまり、状態からアクションの確率分布へのマップ)ですか?
番号。
最適なポリシーは、以下の場合を除いて、一般的に確定的です。
重要な状態情報が欠落しています(POMDP)。たとえば、エージェントがその正確な位置を知ることや以前の状態を記憶することが許可されていないマップでは、指定された状態では位置を明確にするのに十分ではありません。特定の目的地に到達することを目標とする場合は、行き詰まらないように、最適なポリシーにランダムな移動を含めることができます。この場合の環境は(状態全体を見ることができる誰かの観点から)確定的である可能性がありますが、それを解決するために確率的ポリシーが必要になることに注意してください。
ある種のミニマックスゲーム理論のシナリオがあり、決定論的ポリシーは環境または別のエージェントによって罰せられる可能性があります。はさみ/紙/石または囚人のジレンマを考えてください。
直感的に、環境が決定論的である場合(つまり、エージェントが状態inでアクションtakesを実行する場合、次の状態𝑠 'は常に同じで、どのタイムステップでも同じです)、最適なポリシーも決定論的である必要があります(つまり、アクションからの確率分布ではなく、状態からアクションへのマップである必要があります)。
それは妥当に思えますが、値関数に基づく任意のメソッドを使用して、その直感をさらに進めることができます。
最適値関数を見つけた場合、それに関して貪欲に行動することが最適な方針です。
上記のステートメントは、ベルマン最適化方程式を自然言語で言い換えたものです。
つまり、報酬と次のステップの割引額を最大化するアクションを常に選択すると、最適値が取得されます。操作は(あなたが行動の例:順序リストで確定最大値の関係を壊すことができ、必要に応じて)決定論的です。
したがって、MDPでモデル化し、値ベースの方法(値の反復、Q学習など)で解決できる環境には、決定論的な最適なポリシーがあります。
このような環境では、最適なソリューションがまったく確率論的でない可能性があります(つまり、決定論的な最適なポリシーにランダム性を追加すると、ポリシーは厳密に悪化します)。ただし、1つ以上の状態の1つ以上のアクションに最大値の関係がある場合、複数の同等の最適で確定的なポリシーがあります。これらを任意の組み合わせで混合する確率的ポリシーを構築することもできますが、これも最適です。