回答:
RLのブートストラップは、「同じ種類の更新ステップで1つ以上の推定値を使用する」と読むことができます。の推定値。
ほとんどのTD更新ルールでは、次のSARSA(0)更新のようなものが表示されます。
値真の値の推定値である、またTDターゲットと呼ばれます。一部Q値を使用して別のQ値を更新しているため、これはブートストラップ方式です。形で実際に観測された少量のデータがあり、これはステップに対する即時の報酬であり、状態遷移ます。
同等の更新ルールが存在する可能性のあるモンテカルロとは対照的です。
ここで、は時点での合計割引報酬で、この更新では、状態で開始し、アクションを開始し、その後、エピソードの終わりまで現在のポリシーに従いました。技術的には、ターミナルの報酬と状態のタイムステップです。特に、この目標値は(他のQ値からの)既存の推定値をまったく使用せず、環境からの一連の観測(つまり報酬)のみを使用します。そのため、技術的にはQ (s 、a )のサンプルであるため、Q (s 、a )の真の値の不偏推定値であることが保証されます。
ブートストラップの主な欠点は、(または)の開始値が何であろうと偏るということです。これらはおそらく間違いであり、自己参照が多すぎて実際のデータが不足しているため、更新システム全体が不安定になる可能性があります。これは、ニューラルネットワークを使用したポリシー外学習(Qラーニングなど)の問題です。
ブートストラップを使用せずに、より長い軌道を使用すると、多くの場合、代わりに大きな変動が生じます。これは、実際には、推定値が収束する前により多くのサンプルが必要であることを意味します。そのため、ブートストラップの問題にもかかわらず、機能させることができる場合、学習が大幅に速くなる可能性があり、モンテカルロアプローチよりも好まれます。
モンテカルロのサンプルベースの方法と、異なる長さの軌跡の結果を組み合わせて使用することにより、ブートストラップするシングルステップTD方法との間で妥協することができます。これはTD()学習と呼ばれ、SARSA()やQ()などのさまざまな特定の方法があります。