環境も確率的である場合、最適なポリシーは常に確率的ですか?


10

環境も確率的である場合、最適なポリシーは常に確率的(つまり、状態からアクションの確率分布へのマップ)ですか?

直感的に、環境がある場合には、確定(エージェントが状態にある場合、であるsと行動取るa、次の状態s、そして最適なポリシーも決定論的である必要があり、常に同じで、どんなに時間ステップを) (つまり、アクションからの確率分布ではなく、状態からアクションへのマップである必要があります)。


これが関連する質問です:mathoverflow.net/q/44677
nbro

回答:


6

環境も確率的である場合、最適なポリシーは常に確率的(つまり、状態からアクションの確率分布へのマップ)ですか?

番号。

最適なポリシーは、以下の場合を除いて、一般的に確定的です。

  • 重要な状態情報が欠落しています(POMDP)。たとえば、エージェントがその正確な位置を知ることや以前の状態を記憶することが許可されていないマップでは、指定された状態では位置を明確にするのに十分ではありません。特定の目的地に到達することを目標とする場合は、行き詰まらないように、最適なポリシーにランダムな移動を含めることができます。この場合の環境は(状態全体を見ることができる誰かの観点から)確定的である可能性がありますが、それを解決するために確率的ポリシーが必要になることに注意してください。

  • ある種のミニマックスゲーム理論のシナリオがあり、決定論的ポリシーは環境または別のエージェントによって罰せられる可能性があります。はさみ/紙/石または囚人のジレンマを考​​えてください。

直感的に、環境が決定論的である場合(つまり、エージェントが状態inでアクションtakesを実行する場合、次の状態𝑠 'は常に同じで、どのタイムステップでも同じです)、最適なポリシーも決定論的である必要があります(つまり、アクションからの確率分布ではなく、状態からアクションへのマップである必要があります)。

それは妥当に思えますが、値関数に基づく任意のメソッドを使用して、その直感をさらに進めることができます。

最適値関数を見つけた場合、それに関して貪欲に行動すること最適な方針です。

上記のステートメントは、ベルマン最適化方程式を自然言語で言い換えたものです。

v(s)=maxar,sp(r,s|s,a)(r+γv(s))

つまり、報酬と次のステップの割引額を最大化するアクションを常に選択すると、最適値が取得されます。maxa操作は(あなたが行動の例:順序リストで確定最大値の関係を壊すことができ、必要に応じて)決定論的です。

したがって、MDPでモデル化し、値ベースの方法(値の反復、Q学習など)で解決できる環境には、決定論的な最適なポリシーがあります。

このような環境では、最適なソリューションがまったく確率論的でない可能性があります(つまり、決定論的な最適なポリシーにランダム性を追加すると、ポリシーは厳密に悪化します)。ただし、1つ以上の状態の1つ以上のアクションに最大値の関係がある場合、複数の同等の最適で確定的なポリシーがあります。これらを任意の組み合わせで混合する確率的ポリシーを構築することもできますが、これも最適です。


1
「そのような環境では、確率的政策が最適ではない可能性があります」とは、決定論的政策を意味しますか?
nbro

2
@nbro:いいえ、私は本当に、最適な確率的政策がないことを意味します。これは一般的なケースです。簡単な迷路ソルバーの例を考えてみてください。最適な確定的ソリューションが開始から終了までの単一のパスである場合、ランダム性をまったく追加すると、ポリシーが厳密に悪化します。環境がランダムノイズを追加する場合、これは変わりません(たとえば、移動が失敗する場合があります)。
ニール・スレーター

2
今、私は分かる。あなたは常に決定論的ポリシーがあると言っているので、確率論的で決定論的ポリシーから派生したポリシーは、おそらく最適な決定論的ポリシーよりも悪くなるでしょう。
nbro

1
@nbro:はい、それだけです。
Neil Slater、

5

私はノーと言うでしょう。

npiin

pi

明らかに、他のエージェントと対戦する環境(ゲーム理論の設定)にいる場合、最適なポリシーは確かに確率的です(たとえば、ポーカーゲームを考えてみてください)。


pipii

2
@nbro:それは期待において確かです、それは最適な政策が最大にするものです。ポリシーは、乱数発生器を2番目に推測しようとはしません。これは不可能と見なされます(システムの内部状態が原因で可能であった場合、その内部状態をモデルに追加するか、POMDPとして扱う必要があります)
Neilスレーター

@NeilSlaterわかりました。しかし、時間が有限であれば、結論は変わるでしょうか?プレイする時間が限られている場合、予想では、プレイできる時間も考慮する必要があると思います。
nbro

2
@nbro:それはあなたの決定を変えるかもしれませんが、実際には最適なポリシーについてではありません。バンディットアームの最適なポリシーは、最良のアームを使用することについてはまだ確定的ですが、それはわかりません。これは、探索vs搾取についてです。あなたは可能性というフレーズは、おそらく「山賊の問題を探索するのに最適なポリシー」を持つようにすることを。サットンやバルトなどで使用されている用語ではありませんが、おそらく一部の分派はそう言っているでしょう、私にはわかりません。。。
Neil Slater、

1
環境には、同じ決定に何度も直面する1つの状態のみが含まれます。どのアームを選択する必要がありますか?
エイドリアンForbu

0

私は、さまざまな未知の山と谷があり、自分が俳優である確率ランドスケープを考えています。優れた決定論的アプローチは常に、最も近い局所最適に導く可能性がありますが、必ずしも大域最適に導く必要はありません。グローバル最適値を見つけるために、MCMCアルゴリズムのようなものは、ローカル最適値から脱出し、グローバル最適値を見つけるために、一時的に悪い結果を確率的に受け入れることを可能にします。私の直感は、確率的環境ではこれも当てはまるだろうということです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.