回答:
DPは、再帰によって最適なポリシーまたは価値関数を解決します。再帰を実行するには、マルコフ決定プロセス(MDP)または世界のモデルの知識が必要です。これは通常、「学習」ではなく「計画」の下にまとめられます。MDPをすでに知っており、何をすべきかを(最適に)理解する必要があるだけです。
TDはモデルフリーです。世界のモデルの知識は必要ありません。これは反復的で、シミュレーションに基づいており、ブートストラップによって学習します。つまり、状態またはアクションの値は、他の状態またはアクションの値を使用して推定されます。
詳細については、以下を参照してください。