TD学習とDPの主な問題は、ステップの更新が学習パラメーターの初期条件に偏っていることです。ブートストラッププロセスは通常、現在の推定値が後者にあるものを使用して、後続値Q(s '、a')の関数またはルックアップQ(s、a)を更新します。明らかに、学習を始めたばかりの時点では、これらの推定値には、実際の報酬や状態遷移からの情報は含まれていません。
学習が意図したとおりに機能する場合、バイアスは複数の反復にわたって漸近的に減少します。ただし、バイアスは、特にポリシー外の方法(例:Qラーニング)の場合、および関数近似器を使用する場合に、重大な問題を引き起こす可能性があります。この組み合わせは収束に失敗する可能性が高いため、Sutton&Bart では致命的なトライアドと呼ばれています。
各更新はQ(s、a)の真のサンプルを使用して行われるため、モンテカルロ制御法はこのバイアスの影響を受けません。ただし、モンテカルロ法では分散が大きくなる可能性があります。これは、TDと比較して、同じ程度の学習を実現するには、より多くのサンプルが必要であることを意味します。
実際には、致命的なトライアドの問題を克服できれば、TD学習はより効率的に学習するように見えます。エクスペリエンスのリプレイと推定器の段階的な "凍結"コピーを使用した最近の結果は、問題に対処する回避策を提供します。たとえば、AtariゲームのDQN学習器がどのように構築されたかです。
λλ0101
(ポリシーベースの方法ではなく)値ベースの方法を使用している場合、実際にはTD学習がより一般的に使用されます。または、TD(λ)などのTD / MCの組み合わせ方法の方が優れている場合があります。
MCの「実用的な利点」という点では?モンテカルロ学習は、概念的には単純で、堅牢で、実装が簡単ですが、TDよりも遅いことがよくあります。私は通常、(単純な環境で何かを急いで実装するのでない限り)学習コントローラーエンジンには使用しませんが、たとえば複数のエージェントを比較するためのポリシー評価には真剣に検討します。公平な測定。これはテストにとって重要です。