TL; DR。
割引率が1未満に制限されているという事実は、無限和を有限にする数学的なトリックです。これは、特定のアルゴリズムの収束を証明するのに役立ちます。
実際には、割引率を使用して、次の決定の瞬間に世界(環境/ゲーム/プロセスなど)が終了するかどうかについて意思決定者が不確実であるという事実をモデル化できます。
例えば:
意思決定者がロボットである場合、割引係数は、ロボットが次の瞬間にオフになる確率です(世界は前の用語で終わります)。これが、ロボットが近視眼であり、合計報酬ではなく割引合計報酬を最適化しない理由
です。
1より小さい割引係数(詳細)
より正確に答えるために、割引率が1よりも小さくなければならない理由について、まずマルコフ決定プロセス(MDP)を紹介します。
強化学習手法を使用して、MDPを解決できます。MDPは、結果が部分的にランダムで、部分的に意思決定者の制御下にある意思決定状況をモデル化するための数学的フレームワークを提供します。MDPは、状態空間、アクション空間、状態間の遷移確率の関数(意思決定者によって行われたアクションを条件とする)、および報酬関数を介して定義され ます。SA
基本設定では、意思決定者は環境から報酬を受け取り、行動を取り、環境を変更します。その後、意思決定者は環境の状態を感知し、行動を起こし、報酬を受け取ります。状態遷移は確率的であり、実際の状態と意思決定者が行ったアクションのみに依存します。意思決定者によって得られる報酬は、実行されたアクション、および環境の元の状態と新しい状態の両方に依存します。
状態アクションをと、報酬が取得され、意思決定者がアクションを実行した後に環境/システムが状態に変更されます。意思決定者はポリシー、各状態はアクション。そのため、ポリシーは意思決定者に各状態でどのアクションを実行するかを伝えるものです。ポリシーもランダム化できますが、今のところは問題ではありません。Rai(sj,sk)、I S 、J S K A I π π (⋅ ):S → A S J ∈ S A I ∈ A πaisjskaiπ π(⋅):S→Asj∈Sai∈Aπ
目的は、次のようなポリシーを見つけることです。π
maxπ:S(n)→ailimT→∞E{∑n=1TβnRxi(S(n),S(n+1))}(1),
割引率であり。ββ<1
上記の最適化問題には無限の期間()があり、目的は合計報酬を最大化することに注意してください(報酬掛けます)。これは通常、無限の地平線が報酬基準を割引いたMDP問題と呼ばれます。T→∞discountedRβn
ため、この問題は割引と呼ばれます。割引問題ない場合、合計は収束しません。各時点で平均して正の報酬を獲得したすべてのポリシーは、合計すると無限になります。これは、無限のホライズン合計報酬基準であり、最適な最適化基準ではありません。β<1β=1
ここに私が意味することを示すおもちゃの例があります:
2つだけの可能なアクションがあると仮定と報酬関数そのに等しい場合、および 場合(報酬は、状態に依存しません)。a=0,1R1a=10a=0
より多くの報酬を得るポリシーは、常にアクションを実行しアクション実行ないことです。このポリシーをと呼びます。を、小さな確率でアクションを実行別のポリシーと比較し、それ以外の場合はアクションます。a=1a=0π∗π∗π′a=1α<<1a=0
無限ホライズンでは、割引報酬基準式(1)はポリシー場合は(幾何級数の合計 )になり、ポリシー場合は式(1)は。以来 、我々はと言うより良い政策である。実際には、が最適なポリシーです。11−βπ∗π′α1−β11−β>α1−βπ∗π′π∗
無限ホライズンの合計報酬基準()では、式(1)はどのポリシーに対しても収束しません(合計は無限になります)。したがって、ポリシーはよりも高い報酬を達成しますが、この基準によれば、両方のポリシーは同等です。これが、無限ホライズン合計報酬基準が役に立たない理由の1つです。β=1ππ′
前に述べたように、は式(1)の合計を収束させるトリックを作ります。β<1
その他の最適性基準
課さない最適性基準は他にもあります。β<1
有限地平線基準の場合、目的は時間帯までの割引報酬を最大化することですT
maxπ:S(n)→aiE{∑n=1TβnRxi(S(n),S(n+1))},
以下のためのと有限。β≤1T
無限の地平線平均報酬基準目的である
maxπ:S(n)→ailimT→∞E{∑n=1T1TRxi(S(n),S(n+1))},
終了ノート
最適性の基準に応じて、異なるアルゴリズムを使用して最適なポリシーを見つけます。たとえば、有限地平線問題の最適なポリシーは、状態と実際の時刻の両方に依存します。ほとんどの強化学習アルゴリズム(SARSAやQラーニングなど)は、割引報酬の無限ホライズン基準についてのみ最適なポリシーに収束します(動的プログラミングアルゴリズムについても同様です)。平均的な報酬基準には、最適なポリシーに収束することが示されているアルゴリズムはありませんが、理論的な収束は良好ではありませんが、パフォーマンスが優れているRラーニングを使用できます。