1
Qラーニングとポリシーグラデーションメソッドの関係は何ですか?
私の知る限り、RLの問題を解決するために使用される2つの主要なアプローチは、Qラーニングとポリシーグラデーション(PG)です。Qラーニングは特定の状態で実行された特定のアクションの報酬を予測することを目的としていますが、ポリシーの勾配はアクション自体を直接予測します。 ただし、どちらのアプローチも私と同じように見えます。つまり、アクションの最大報酬の予測(Qラーニング)は、アクションを直接行う確率(PG)の予測と同等です。損失が逆伝播する方法に違いはありますか?