Deep Q-Learning Networkの損失関数がどの程度正確にトレーニングされているのか疑問です。私は、線形出力層とRelu非表示層のある2層フィードフォワードネットワークを使用しています。
- 4つのアクションがあるとします。したがって、現在の状態に対する私のネットワークの出力はです。より具体的にするために、と仮定しましょう
- 次に、値対応するアクション、つまり3番目のアクションを実行し、新しい状態到達します。
- 次に、状態フォワードパスを計算し、出力レイヤー次の値を取得するとします。また、報酬ととしましょう。
損失は以下によって与えられます:
または
または
ありがとう、申し訳ありませんが、これを非常に基本的な方法で書き出さなければなりませんでした。(正解は2番目だと思います...)
1
この明確な例のある質問は、私が過去1週間に読んだ他のメディアの記事よりもディープqラーニングを理解するのに役立ちました。
—
dhruvm