タグ付けされた質問 「reinforcement-learning」

1
強化学習における割引率の意味
アタリのゲームに関するグーグルディープマインドの成果を読んだ後、qラーニングとqネットワークを理解しようとしていますが、少し混乱しています。割引率の概念に混乱が生じます。私が理解していることの簡単な要約。深い畳み込みニューラルネットワークは、アクションの最適な期待値の値を推定するために使用されます。ネットワークは損失関数 どこ E S " [ Y | S 、A ]であり、 E [ R + γ M A X A ' Q (S '、' ; θ - I)| s、a] ここで、Qは累積スコア値、rは選択したアクションのスコア値です。s、a、 sL私= Es 、a 、r[(Es』[ y| s、a]−Q(s、a; θ私))2]Li=Es,a,r[(Es′[y|s,a]−Q(s,a;θi))2] L_i=\mathbb{E}_{s,a,r}\left[(\mathbb{E}_{s'}\left[y|s,a\right]-Q(s,a;\theta_i))^2\right] Es』[ y| s、a]Es′[y|s,a]\mathbb{E}_{s'}\left[y|s,a\right]E [ r + γmは、Xがa』Q (s』、a』; θ−私)∣|s 、a ]E[r+γmaxa′Q(s′,a′;θi−)|s,a] \mathbb{E}\left[r+\gamma …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.