アタリのゲームに関するグーグルディープマインドの成果を読んだ後、qラーニングとqネットワークを理解しようとしていますが、少し混乱しています。割引率の概念に混乱が生じます。私が理解していることの簡単な要約。深い畳み込みニューラルネットワークは、アクションの最適な期待値の値を推定するために使用されます。ネットワークは損失関数 どこ E S " [ Y | S 、A ]であり、 E [ R + γ M A X A ' Q (S '、' ; θ - I)| s、a] ここで、Qは累積スコア値、rは選択したアクションのスコア値です。s、a、 s
はそれぞれ、時刻 tで選択した状態とアクション、および時刻 t 'での状態とアクションです。θ - 私は前回の反復でネットワークの重みです。γは、アカウントにスコア値の時間差を取る割引率です。私の添字は、時間的なステップです。ここでの問題は、 γが θに依存しない理由を理解することです。
数学的な観点から、割引因子であり、状態到達する可能性を表しているのが"状態からの。
ネットワークは実際にγの真の値に従ってを再スケーリングすることを学習していると思います。そのため、γ = 1にしないでください。