Deep Deterministic Policy Gradient(DDPG)アルゴリズムでのActor Gradient Updateの計算
この質問は、DDPGに関するディープマインドペーパー(https://arxiv.org/pdf/1509.02971v5.pdf)に関するものです。 私が見たほとんどの(すべて?)実装のDDPGアルゴリズムは、、ここではアクターネットワークのパラメーターを表し、はアクターネットワークを表し、は批評家ネットワークを表し、は状態を表します入力。これを式1と呼びます。∇ (J)=∇μ (s | θ )(Q (s 、μ (s | θ ))∇θ(μ (s | θ ))∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))\nabla(J)=\nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta))θθ\thetaμμ\muQQQsss 論文に示されている式1は、チェーンルールをことで得られます。これにより、。∇ (J)=∇θ(Q (s 、μ (s | θ ))∇(J)=∇θ(Q(s,μ(s|θ))\nabla(J)=\nabla_{\theta}(Q(s,\mu(s|\theta))∇μ (s | θ )(Q (s 、μ (s | θ ))∇θ(μ (s | θ ))∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ)) \nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta)) 私の質問は、auto-gradソフトウェアパッケージ(Theano / Tensorflow / Torch / etc)を使用して、 wrt出力の勾配を直接計算できなかった理由があるのですか?何らかの理由で、すべての実装は、最初に wrtの出力の勾配を計算してから、チェーンルールに従って wrtからへ勾配を乗算します。彼らがこれを行う理由がわかりません- …