強化学習における割引要因の役割を理解する


43

私は強化学習について学び、割引報酬の概念を理解しようとしています。そのため、システムに状態とアクションのペアのどちらが良いか、どれが悪いかを伝えるために報酬が必要です。しかし、私が理解していないのは、割引報酬が必要な理由です。後で良い状態に到達するのではなく、すぐに到達するかどうかが重要なのはなぜですか?

これはいくつかの特定の場合に関連することを理解しています。たとえば、株式市場で取引するために強化学習を使用している場合、利益を遅らせるよりも早くする方がより有益です。これは、そのお金を持っていることで、そのお金で今やることができるようになるためです。

しかし、ほとんどの場合、割引が役立つ理由はわかりません。たとえば、障害物と衝突した場合にペナルティがある反対側に到達するために、部屋の周りをナビゲートする方法をロボットに学習させたいとしましょう。割引要因がなければ、障害物と衝突することなく、完全に反対側に到達することを学習します。そこに着くまでに長い時間がかかるかもしれませんが、最終的にはそこに着くでしょう。

しかし、報酬に割引を与えると、途中で物体と衝突しなければならない場合でも、ロボットは部屋の反対側にすばやく到達することが奨励されます。これは明らかに望ましい結果ではありません。確かに、ロボットを反対側にすばやく到達させたいのですが、途中でオブジェクトと衝突する必要がある場合はそうではありません。

ですから、私の直感では、どのような形の割引率も、実際には次善の解決策につながるということです。そして、割引率の選択はしばしばarbitrary意的に思えます-私が見た多くの方法は単にそれを0.9に設定しました。これは私には非常に素朴なように見え、最適なソリューションと最速のソリューションの間の任意のトレードオフを与えるように見えますが、実際にはこのトレードオフは非常に重要です。

誰かが私にこのすべてを理解するのを手伝ってくれますか?ありがとうございました :)

回答:


36

TL; DR。

割引率が1未満に制限されているという事実は、無限和を有限にする数学的なトリックです。これは、特定のアルゴリズムの収束を証明するのに役立ちます。

実際には、割引率を使用して、次の決定の瞬間に世界環境/ゲーム/プロセスなど)が終了するかどうかについて意思決定者が不確実であるという事実をモデル化できます。

例えば:

意思決定者がロボットである場合、割引係数は、ロボットが次の瞬間にオフになる確率です(世界は前の用語で終わります)。これが、ロボットが近視眼であり、合計報酬ではなく割引合計報酬を最適化しない理由 です。

1より小さい割引係数(詳細)

より正確に答えるために、割引率が1よりも小さくなければならない理由について、まずマルコフ決定プロセス(MDP)を紹介します。

強化学習手法を使用して、MDPを解決できます。MDPは、結果が部分的にランダムで、部分的に意思決定者の制御下にある意思決定状況をモデル化するための数学的フレームワークを提供します。MDPは、状態空間、アクション空間、状態間の遷移確率の関数(意思決定者によって行われたアクションを条件とする)、および報酬関数を介して定義され ます。SA

基本設定では、意思決定者は環境から報酬を受け取り、行動を取り、環境を変更します。その後、意思決定者は環境の状態を感知し、行動を起こし、報酬を受け取ります。状態遷移は確率的であり、実際の状態と意思決定者が行ったアクションのみに依存します。意思決定者によって得られる報酬は、実行されたアクション、および環境の元の状態と新しい状態の両方に依存します。

状態アクションをと、報酬が取得され、意思決定者がアクションを実行した後に環境/システムが状態に変更されます。意思決定者はポリシー、各状態はアクション。そのため、ポリシーは意思決定者に各状態でどのアクションを実行するかを伝えるものです。ポリシーもランダム化できますが、今のところは問題ではありません。Rai(sj,sk)、I S 、J S K A I π π SA S JS A IA πaisjskaiπ π():SAsjSaiAπ

目的は、次のようなポリシーを見つけることです。π

maxπ:S(n)ailimTE{n=1TβnRxi(S(n),S(n+1))}(1),
割引率であり。ββ<1

上記の最適化問題には無限の期間()があり、目的は合計報酬を最大化することに注意してください(報酬掛けます)。これは通常、無限の地平線が報酬基準を割引いたMDP問題と呼ばれますTdiscountedRβn

ため、この問題は割引と呼ばれます。割引問題ない場合、合計は収束しません。各時点で平均して正の報酬を獲得したすべてのポリシーは、合計すると無限になります。これは、無限のホライズン合計報酬基準であり、最適な最適化基準ではありません。β<1β=1

ここに私が意味することを示すおもちゃの例があります:

2つだけの可能なアクションがあると仮定と報酬関数そのに等しい場合、および 場合(報酬は、状態に依存しません)。a=0,1R1a=10a=0

より多くの報酬を得るポリシーは、常にアクションを実行しアクション実行ないことです。このポリシーをと呼びます。を、小さな確率でアクションを実行別のポリシーと比較し、それ以外の場合はアクションます。a=1a=0πππa=1α<<1a=0

無限ホライズンでは、割引報酬基準式(1)はポリシー場合は(幾何級数の合計 )になり、ポリシー場合は式(1)は。以来 、我々はと言うより良い政策である。実際には、が最適なポリシーです。11βππα1β11β>α1βπππ

無限ホライズンの合計報酬基準()では、式(1)はどのポリシーに対しても収束しません(合計は無限になります)。したがって、ポリシーはよりも高い報酬を達成しますが、この基準によれば、両方のポリシーは同等です。これが、無限ホライズン合計報酬基準が役に立たない理由の1つです。β=1ππ

前に述べたように、は式(1)の合計を収束させるトリックを作ります。β<1

その他の最適性基準

課さない最適性基準は他にもあります。β<1

有限地平線基準の場合、目的は時間帯までの割引報酬を最大化することですT

maxπ:S(n)aiE{n=1TβnRxi(S(n),S(n+1))},

以下のためのと有限。β1T

無限の地平線平均報酬基準目的である

maxπ:S(n)ailimTE{n=1T1TRxi(S(n),S(n+1))},

終了ノート

最適性の基準に応じて、異なるアルゴリズムを使用して最適なポリシーを見つけます。たとえば、有限地平線問題の最適なポリシーは、状態と実際の時刻の両方に依存します。ほとんどの強化学習アルゴリズム(SARSAやQラーニングなど)は、割引報酬の無限ホライズン基準についてのみ最適なポリシーに収束します(動的プログラミングアルゴリズムについても同様です)。平均的な報酬基準には、最適なポリシーに収束することが示されているアルゴリズムはありませんが、理論的な収束は良好ではありませんが、パフォーマンスが優れているRラーニングを使用できます。


1
あなたの答えのすべての中国語を理解するために私が読むべきものについてのアイデアはありますか?
チボーノア

@thibautnoahこれは私見最高の参照強化学習:サットンとバルトからの紹介です。[ people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf]
PolBM

おかげで仲間、おそらく数学の別の本が必要になりますが、私はそれが始まりだと思います;)
チボーノア

6

あなた(いわゆる割引率ということだ右 -これはより異なっていることに注意してください TD-から)「人生の緊急性」のような役割を果たし、したがって、ある問題の一部 -それはである同じように人間の生活:一部の人々はまるで永遠に生きるかのように生きています。明日死ぬかのように生きる人もいます。γλλ


2

TL; DR:割引率は期間に関連しています。長い期間には、より関連性のない情報が含まれるため、ばらつきが大きくなりますが、短い期間は短期的な利益のみに偏ります。

割引係数は、本質的に、強化学習エージェントが遠い将来の報酬を、近い将来の報酬と比較してどれだけ気にするかを決定します。場合は、エージェントは完全に近視ことだけすぐに報酬を生み出す行為について学習します。場合は、エージェントは、その将来の報酬の全ての合計に基づいて、その行動のそれぞれを評価します。γ=0γ=1

では、なぜを可能な限り高くしたくないのでしょうか?まあ、ほとんどのアクションは長続きしません。たとえば、毎月1日にスムージーを食べることに決め、ブルーベリーのスムージーとイチゴのスムージーのどちらを手に入れるかを決めないとします。優れた強化学習者として、あなたはあなたの決定の質を、その後の報酬の大きさで判断します。期間が非常に短い場合、スムージーの美味しさなど、即時の報酬のみを考慮します。数時間のような長い時間範囲では、胃のむかつきがあるかどうかなども考慮する必要があります。しかし、あなたの時間地平線はあなたが良いか悪い感じさせる一つ一つ、その後、月全体続く場合は月全体をγあなたが正しいスムージーの決定をしたかどうかに関するあなたの判断を考慮します。あなたは多くの無関係な情報を考慮しているので、あなたの判断には大きなばらつきがあり、学ぶのは難しいでしょう。

特定の値を選択することは、時間範囲を選択することと同等です。エージェントの割引報酬をとして 書き直すのに役立ちます Iは識別と。値は、割引係数に関連付けられた期間を明示的に示します。はに対応し、報酬はよりもはるかに多くなりますγG

Gt=Rt+γRt+1+γ2Rt+2+=k=0γkRt+k=Δt=0eΔt/τRt+Δt
γ=e1/τkΔtτγ=1τ=τ将来の時間ステップは指数関数的に抑制されます。通常、特定のアクションに関連するすべての報酬が期間に含まれるように割引係数を選択する必要がありますが、それ以上ではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.