強化学習における割引率の意味


10

アタリのゲームに関するグーグルディープマインドの成果を読んだ後、qラーニングとqネットワークを理解しようとしていますが、少し混乱しています。割引率の概念に混乱が生じます。私が理解していることの簡単な要約。深い畳み込みニューラルネットワークは、アクションの最適な期待値の値を推定するために使用されます。ネットワークは損失関数 どこ E S " [ Y | S A ]であり、 E [ R + γ M A X A ' Q S '' ; θ - I| sa] ここで、Qは累積スコア値、rは選択したアクションのスコア値です。sa s

Li=Es,a,r[(Es[y|s,a]Q(s,a;θi))2]
Es[y|s,a]
E[r+γmaxaQ(s,a;θi)|s,a]
Qrs,aはそれぞれ、時刻 tで選択した状態とアクション、および時刻 t 'での状態とアクションです。θ - 私は前回の反復でネットワークの重みです。γは、アカウントにスコア値の時間差を取る割引率です。の添字は、時間的なステップです。ここでの問題は、 γ θに依存しない理由を理解することです。s,attθiγiγθ

数学的な観点から、割引因子であり、状態到達する可能性を表しているのが"状態からγss

ネットワークは実際にγの真の値に従ってを再スケーリングすることを学習していると思います。そのため、γ = 1にしないでください。Qγγ=1

回答:


6

ssp(s|s,a)γysは、この状態の瞬間的な報酬に加えて、から始まる将来に受け取ると予想される報酬です。ただし、将来の報酬は(場合)現在の報酬を受け取るのと同じ値にならない可能性があるため(明日100 ドルではなく100 ドルを受け取るほうがよいように)、その将来の期間は割り引く必要があります。将来の報酬を減額するかどうかは、あなた次第です(問題によって異なります)。割引係数0は、即時の報酬のみを気にすることを意味します。割引率が高ければ高いほど、報酬は時間をかけて伝播します。sγ<1

ニュートラルネットワークのコンテキスト外で純粋な強化学習を学ぶために、Deep-Qを試す前にSutton&Bartoの本を読んでください。混乱するかもしれません。


dc
Ev=i=1+γidc
d

dγ1γ=c
γgammaγ=ppt0γ1p1p=ττ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.