表形式のQ学習アルゴリズムは、学習率に関する以下の条件(Robbins-Monro条件)が満たされていれば、最適な関数を見つけることが保証されています
ここで、は、タイムステップで状態およびアクション関連付けられた値を更新するときに使用される学習率を意味します。ここで、はtrueであると想定されます。すべての状態のとアクション。
明らかに、場合、2つの条件がtrueになるためには、すべての状態とアクションのペアに無限にアクセスする必要があります。これは、本の強化学習:はじめににも記載されています、これは広く知られている必要があるという事実とは別に、トレーニング中に -greedyポリシー(または同様のポリシー)を使用する根拠となっています。
Qラーニングが最適な関数を見つけることを示す完全な証明は、ラーニングの収束:単純な証明(Francisco S. Melo)の論文にあります。彼は、収縮マッピングのような概念を使用して、この収縮演算子の固定小数点である最適な関数(強化学習におけるベルマン演算子とは?も参照)を定義します。彼はまた、いくつかの仮定を前提として、に収束するランダムプロセスに関する定理(n。2)を使用しています。(あなたが数学の人でないなら、証明は従うのが簡単ではないかもしれません。)
関数を表すためにニューラルネットワークが使用されている場合、Q学習の収束保証は引き続き有効ですか?関数近似を使用するとQ学習が収束する(または収束しない)のはなぜですか?関数近似を使用したQ学習のそのような非収束の正式な証明はありますか?
私は、関数近似を使用するときにラーニングの非収束の背後にある直感を与えるものから、形式的な証明(または形式的な証明のある論文へのリンク)を提供するものへのさまざまなタイプの回答を探しています。