SARSAとQ Learningは、どちらも同様の方法で機能する強化学習アルゴリズムです。最も顕著な違いは、SARSAがポリシーに基づいており、Qラーニングがポリシーに基づいていないことです。更新ルールは次のとおりです。
Q学習:
SARSA:
ここで、およびは、タイムステップでの状態、アクション、および報酬であり、は割引係数です。
SARSAでは実際のアクションを実行し、Q Learningでは最高の報酬でアクションを実行するという点を除いて、ほとんど同じように見えます。
一方が他方よりも優先すべき理論的または実用的な設定はありますか?Q Learningで最大限に活用することは、継続的なアクションスペースではコストがかかり、さらに高くなる可能性があることがわかります。しかし、他に何かありますか?