強化学習における動的計画法と時間差学習の違い


回答:


9

DPは、再帰によって最適なポリシーまたは価値関数を解決します。再帰を実行するには、マルコフ決定プロセス(MDP)または世界のモデルの知識が必要です。これは通常、「学習」ではなく「計画」の下にまとめられます。MDPをすでに知っており、何をすべきかを(最適に)理解する必要があるだけです。

TDはモデルフリーです。世界のモデルの知識は必要ありません。これは反復的で、シミュレーションに基づいており、ブートストラップによって学習します。つまり、状態またはアクションの値は、他の状態またはアクションの値を使用して推定されます。

詳細については、以下を参照してください。

http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.