強化学習における動的計画法と時間差学習の違い

強化学習で、動的計画法と時間差学習の違いは何ですか？

reinforcement-learning

— tdc
ソース

DPは、再帰によって最適なポリシーまたは価値関数を解決します。再帰を実行するには、マルコフ決定プロセス（MDP）または世界のモデルの知識が必要です。これは通常、「学習」ではなく「計画」の下にまとめられます。MDPをすでに知っており、何をすべきかを（最適に）理解する必要があるだけです。

TDはモデルフリーです。世界のモデルの知識は必要ありません。これは反復的で、シミュレーションに基づいており、ブートストラップによって学習します。つまり、状態またはアクションの値は、他の状態またはアクションの値を使用して推定されます。

詳細については、以下を参照してください。