2
モンテカルロ法が時間差法よりも好ましいのはいつですか?
私は最近、強化学習について多くの研究を行っています。私は、サットン&バルトの強化学習:これの大部分についての紹介をフォローしました。 マルコフ決定プロセスとは何か、動的プログラミング(DP)、モンテカルロ、時間差(DP)の学習を使用してそれらを解決する方法を知っています。問題私がいるが、モンテカルロはTD-過剰学習より良いオプションになるとき、私は見ていないということです。 それらの間の主な違いは、TD学習がアクション値関数を近似するためにブートストラップを使用し、モンテカルロがこれを達成するために平均を使用することです。これがより良い方法であるとき、私は本当にシナリオを考えることができません。 私の推測では、それはパフォーマンスと関係があるかもしれませんが、これを証明できるソースを見つけることができません。 私は何かが足りないのですか、それともTD学習が一般的にはより良い選択肢ですか?