Qラーニング(強化学習)に遷移確率がないのはなぜですか?


8

強化学習の目的は、次のように定義される状態値関数またはアクション値関数を最適化することです。

Vsπ=p(s|s,π(s))[r(s|s,π(s))+γVπ(s)]=Eπ[r(s|s,a)+γVπ(s)|s0=s]

Qπ(s,a)=p(s|s,s)[r(s|s,a)+γVπ(s)]=Eπ[r(s|s,a)+γVπ(s)|s0=s,a0=a]

ただし、Q学習メソッドを使用して最適な戦略を取得する場合、更新メソッドは次のようになります。

Q(S,A) Q(S,A)+α[R+γmaxa(Q(s,a))Q(S,A)]

私の質問は:

なぜQ学習で何の遷移確率が存在しない。MDPをモデリングするときに、このは必要ないということですか?pp(s|s,a)p

回答:


6

状態遷移確率関数を学習しないアルゴリズムは、モデルフリーと呼ばれます。モデルベースのアルゴリズムの主な問題の1つは、多くの状態が存在することが多く、ナイーブモデルは状態の数が2次であることです。これは、膨大なデータ要件を課します。

Qラーニングはモデルフリーです。状態遷移確率関数は学習しません。


1
ただし、MDPでは常に確率があります。遷移確率がない場合、RLはプロセスがマルコフであると想定しているため、これは強化学習の基本的な仮定に矛盾していることを意味しますか。
hokies、16

3
@FzLbMjもちろん遷移確率はどこかに存在します。重要なのは、私が言ったように、それらは学習されていないということです。
Neil G、

1
@nbroモデルベースとは、環境のダイナミクスを学習することを意味します。これを行うモデルは次のとおりです。クバエフ、D。、およびリチャードS.サットン。モデルベースの強化学習。テック。担当。マサチューセッツ大学、コンピューターサイエンス学部、1997年。参考までに、何かを知らない場合はgoogle scholarを使用できます。
Neil G

1
遷移確率を学習するアルゴリズムを持つ、あなたが読める論文を送ったところです。部5を参照してください
ニール・G

2
@nbro明らかに定義について意見の相違があるため、説得力を持たせたい場合は、リファレンスを使用してアサーションをサポートしてください。
Neil G

2

明確にするために、アクション値関数は1つしかないため、を置き換える必要があると思います。次の状態のアクションでQを評価しているだけです。この表記は、がどこにあるかを示します。maxa(Q,a)maxa(Q(S,a))p(s|s,a)

直感的に、は環境のプロパティです。私たちはそれがどのように動作するかを制御するのではなく、単にそれからサンプリングします。この更新を呼び出す前に、まず状態Sにある間にアクションAを実行する必要があります。これを実行するプロセスにより、報酬が得られ、次の状態に移動します。あなたが着陸する次の状態は、その定義によりから引き出されます。したがって、Qラーニングの更新では、が1であると本質的に仮定しています。p(s|s,a)p(s|s,a)p(s|s,a)

環境の完全なダイナミクス、より具体的には値を知らなくても、最適なアクション値関数を推定する反復法であるため、これは問題ありません。この情報を提供する環境のモデルがある場合、戻り値を変更するだけで、更新を変更して含めることができます。。γ P S ' | S Aはmは、X AQ S 'p(s|s,a)γp(S|S,A)maxa(Q(S,a))


ご返事ありがとうございます。したがって、Q学習を使用する場合は、すべてのアクションの確率が等しいと仮定します。ところで、さまざまな状況に対処するときにどのメソッド(SARSAまたはQ-learning)を使用する必要があるかについて何か考えがありますか?ありがとう。
hokies 16

すべてのアクションの確率が等しいとは限りません。遷移関数は計算のために決定論的であると仮定します。つまり、同じ状態から同じアクションを実行すると、同じ次の状態に到達します。:Q学習ここを見て対サーザためstackoverflow.com/questions/6848828/...
アレックス

0

上記に加えて、Qラーニングはモデルフリーアルゴリズムです。つまり、エージェントは環境が与える状態を知っているだけです。つまり、エージェントがアクションを選択して実行する場合、次の状態は環境によってのみ決定され、エージェントに与えられます。そのため、エージェントは状態遷移確率を考慮しません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.