統計とビッグデータ temporal-difference

モンテカルロ法が時間差法よりも好ましいのはいつですか？

私は最近、強化学習について多くの研究を行っています。私は、サットン＆バルトの強化学習：これの大部分についての紹介をフォローしました。マルコフ決定プロセスとは何か、動的プログラミング（DP）、モンテカルロ、時間差（DP）の学習を使用してそれらを解決する方法を知っています。問題私がいるが、モンテカルロはTD-過剰学習より良いオプションになるとき、私は見ていないということです。それらの間の主な違いは、TD学習がアクション値関数を近似するためにブートストラップを使用し、モンテカルロがこれを達成するために平均を使用することです。これがより良い方法であるとき、私は本当にシナリオを考えることができません。私の推測では、それはパフォーマンスと関係があるかもしれませんが、これを証明できるソースを見つけることができません。私は何かが足りないのですか、それともTD学習が一般的にはより良い選択肢ですか？

12 monte-carlo reinforcement-learning temporal-difference

タグ付けされた質問 「temporal-difference」

タグ付けされた質問「temporal-difference」