「強化学習:はじめに」に次の方程式がありますが、下の青色で強調表示されている手順にはあまり従いません。このステップはどのくらい正確に導出されますか?
「強化学習:はじめに」に次の方程式がありますが、下の青色で強調表示されている手順にはあまり従いません。このステップはどのくらい正確に導出されますか?
回答:
これは、その背後にあるクリーンで構造化された数学について疑問に思っているすべての人の答えです(つまり、ランダム変数が何であるかを知っている人々のグループに属し、ランダム変数が密度を持っていることを表示または仮定する必要がある場合、これはあなたのための答え;-)):
まず、マルコフ決定プロセスが有限数の報酬しか持たないようにする必要があります。つまり、密度の有限集合が存在し、それぞれが変数、つまりすべてのとマップについてような
(すなわち、MDPの背後のオートマトンでは、無限に多くの状態が存在する可能性がありますが、状態間の無限の遷移に付随する可能性がある報酬分布のみが存在します)
定理1:(すなわち、積分可能な実確率変数)とし、を別の確率変数とし、が共通密度を持ち、
証明:ステファンハンセンによってここで本質的に証明されました。
定理2:とし、をさらにランダム変数とし、が共通密度を持ち、
ここの範囲である。
証明:
置くと置くそれから、収束し、関数収束することを示すことができます(MDPには有限の報酬しかありません以下のままであるつもこと(単調収束定理の通常の組み合わせを使用して条件付き期待【の因数分解]のための定義式に収束を支配することによって)示すことができる(すなわち、積分)
ここで、
状態空間が有限(その後で合計が有限)またはすべての報酬がすべて正(単調収束を使用)またはすべての報酬が負(その後マイナス記号を前に置く)等式および再び単調収束を使用します)またはすべての報酬が制限されます(そして、支配的な収束を使用します)。次に(上記の部分/有限ベルマン方程式の両側にを適用することにより)
そして残りは通常の密度操作です。
注:非常に単純なタスクでも、状態空間は無限になります!1つの例は、「ポールのバランスをとる」タスクです。状態は、本質的に極の角度(値で、数え切れないほど無限のセットです!)
注:人々は「生地にコメントするかもしれませんが、の密度を直接使用して、 '...しかし...私の質問は次のようになります:
時間後に、割引報酬の合計をしてみましょうなる:
状態で開始するユーティリティ値は、状態以降で実行されるポリシーの
割引報酬予想合計に相当し
ます。
定義に直線性の法則
法則により
総期待
定義により直線性の法則により
プロセス満たすマルコフプロパティと仮定:
確率状態で終わるの状態から開始したと取らアクション、
および
状態が状態から開始し、アクション実行し場合の
報酬、
したがって、上記のユーティリティ方程式を次のようにことができます。
どこ; :確率的ポリシーに対して状態ときにアクションを実行する確率。決定論的ポリシーの場合、
これが私の証拠です。条件付き分布の操作に基づいているため、簡単に追跡できます。これがお役に立てば幸いです。
これは、受け入れられた答えに対する単なるコメント/追加です。
私は完全な期待の法則が適用されている行で混乱していました。ここでは、総期待法の主な形式が役立つとは思わない。ここでは実際にそのバリアントが必要です。
場合は確率変数と、すべての期待が存在すると仮定され、次のアイデンティティが成り立ちます:
この場合、、およびです。それから
、マルコフの特性により
そこから、答えの残りの証拠をたどることができます。
は通常、エージェントがポリシー従うことを前提とする期待を示します。この場合、は非決定的と思われます。つまり、状態ときにエージェントがアクションを実行確率を返します。
小文字のは、ランダム変数置き換えているようです。2番目の期待値は無限の合計に置き換わり、将来のすべてのについてをたどり続けるという仮定を反映しています。は、次のタイムステップで予想される即時報酬です。2番目の期待値(なります)は、次の状態の期待値であり、状態でからをとる確率で重み付けされます。
したがって、期待値は、ここではとして一緒に表される遷移関数と報酬関数だけでなく、政策確率も考慮します。
正しい答えがすでに与えられ、時間が経ったとしても、次のステップバイステップガイドが役立つと思いまし
た。期待値の線形性により、
をおよび変換し ます。
最初の部分のみの手順の概要を説明します。2番目の部分の後には、期待値の法則と同じ手順が続きます。
(III)は次の形式に従います:
私はすでに受け入れられた答えがあることを知っていますが、おそらくより具体的な派生を提供したいと思います。@Jie Shiのトリックは多少理にかなっていますが、非常に不快に感じます:(。この仕事をするために時間の次元を考慮する必要があります。そして、期待が実際にあることに注意することが重要ですとだけではなく、無限の地平線全体を撮影しますから開始すると仮定し(実際、派生は開始時間に関係なく同じです。方程式を別の添字で汚染したくありません。)
この段階で、私たちのほとんどは、上記が最終式にどのようにつながるかをすでに心に留めているべきだと思います-合計積の規則()を苦労して適用するだけです。内の各項に期待の線形性の法則を適用してみましょう
パート1
まあ、これはかなり些細なことで、関連するものを除いて、すべての確率が消えます(実際には合計1)。したがって、
パート2
推測してください。このパートはさらに簡単です。合計のシーケンスを再配置するだけです。
そしてエウレカ!! 大きな括弧の内側で再帰的なパターンを回復します。これをと、を取得し
およびパート2は
パート1 +パート2
そして、今度は時間ディメンションを押し込み、一般的な再帰式を復元できます
最後の告白、私は上記の人々が総期待の法則の使用に言及しているのを見て笑った。だからここにいる
この質問に対する答えはすでに非常に多くありますが、ほとんどの場合、操作で何が起こっているかを説明する単語はほとんど含まれていません。もっと多くの言葉を使って答えようと思う。始めること、
は、サットンとバルトの方程式3.11で定義され、一定の割引係数を持ち、またはがありますが、両方はありません。報酬は確率変数であるため、も確率変数の単なる線形結合であるためです。
その最後の行は、期待値の線形性から続きます。 は、時間ステップアクションを実行した後にエージェントが獲得する報酬です。簡単にするため、有限数の値を取ることができると仮定します。
第1期に取り組みます。つまり、現在の状態があることがわかっている場合、の期待値を計算する必要があります。この式は
言い換えれば、報酬が現れる確率は状態左右されます。州によって報酬が異なる場合があります。この分布は、変数と、時刻実行されたアクション、アクション後の時刻状態もそれぞれ含んでいた分布の周辺分布です。
どこで使用している書籍のコンベンション以下に、。その最後の等式が混乱している場合、合計を忘れ、抑制し(確率は結合確率のようになります)、乗算の法則を使用し、最終的にすべての新しい項での条件を再導入します。最初の用語は
要求に応じ。2番目の項では、が有限数の値を取るランダム変数であると仮定します。最初の用語のように:
もう一度、書くことで確率分布を「非境界化」します(再び乗算の法則)
そこの最後の行は、マルコフ性からのものです。は、状態後にエージェントが受け取るすべての将来(割引)報酬の合計であることを忘れないでください。マルコフ特性は、プロセスが以前の状態、アクション、および報酬に関してメモリレスであることです。将来のアクション(およびそれらが獲得する報酬)は、アクションが実行される状態にのみ依存するため、仮定によりとなります。さて、証明の第2項は
必要に応じて、もう一度。2つの用語を組み合わせると証明が完了します
更新
私は、第2期の派生において手品のように見えるかもしれないものに取り組みたいと思います。でマークされた式では、私は用語の使用し、後で式マークで私はその主張に依存しないマルコフプロパティを主張することにより、。したがって、これが当てはまる場合、と言うことができます。しかし、これは真実ではありません。私が取ることができますその文の左側にある確率は、これが確率されていることを言うので上の条件、、、および。状態知っているか仮定しているため、マルコフ特性のため、他の条件は重要ではありません。状態知らない、または仮定しない場合、将来の報酬(の意味)はどの状態で開始するかによって決まります。これは、計算時にどの状態を開始するかを(ポリシーに基づいて)決定するためです。
その引数があなたを納得させないなら、が何であるかを計算してみてください:
最後の行に見られるように、であるとは言えません。の期待値は、状態がわからない場合や仮定しない場合、どの状態で開始するか(つまりの識別情報)によって異なります。