タグ付けされた質問 「q-learning」

1
Qラーニングとポリシーグラデーションメソッドの関係は何ですか?
私の知る限り、RLの問題を解決するために使用される2つの主要なアプローチは、Qラーニングとポリシーグラデーション(PG)です。Qラーニングは特定の状態で実行された特定のアクションの報酬を予測することを目的としていますが、ポリシーの勾配はアクション自体を直接予測します。 ただし、どちらのアプローチも私と同じように見えます。つまり、アクションの最大報酬の予測(Qラーニング)は、アクションを直接行う確率(PG)の予測と同等です。損失が逆伝播する方法に違いはありますか?

1
DQNに2つの異なるネットワークが必要なのはなぜですか?
私はを経たこの DQNの実装と私はライン124および125上の2つの異なるQネットワークが初期化されていることがわかります。私の理解から、私は1つのネットワークが適切なアクションを予測し、2番目のネットワークがベルマン誤差を見つけるためのターゲットQ値を予測すると思います。 Q値を予測するだけの単一のネットワークを作成して、両方の場合に使用できないのはなぜですか?計算時間を短縮するために行われたと私は推測しています。それ以外の場合は、各アクションのq値を見つけて、最適なものを選択する必要があります。これが唯一の理由ですか?何か不足していますか?

2
関数近似を使用するとQラーニングが収束しないのはなぜですか?
表形式のQ学習アルゴリズムは、学習率に関する以下の条件(Robbins-Monro条件)が満たされていれば、最適な関数を見つけることが保証されていますQQQQ∗Q∗Q^* ∑tαt(s,a)=∞Σtαt(s、a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞Σtαt2(s、a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty ここで、は、タイムステップで状態およびアクション関連付けられた値を更新するときに使用される学習率を意味します。ここで、はtrueであると想定されます。すべての状態のとアクション。αt(s,a)αt(s、a)\alpha_t(s, a)QQQsssaaattt0≤αt(s,a)&lt;10≤αt(s、a)&lt;10 \leq \alpha_t(s, a) < 1sssaaa 明らかに、場合、2つの条件がtrueになるためには、すべての状態とアクションのペアに無限にアクセスする必要があります。これは、本の強化学習:はじめににも記載されています、これは広く知られている必要があるという事実とは別に、トレーニング中に -greedyポリシー(または同様のポリシー)を使用する根拠となっています。0≤αt(s,a)&lt;10≤αt(s、a)&lt;10 \leq \alpha_t(s, a) < 1ϵε\epsilon Qラーニングが最適な関数を見つけることを示す完全な証明は、ラーニングの収束:単純な証明(Francisco S. Melo)の論文にあります。彼は、収縮マッピングのような概念を使用して、この収縮演算子の固定小数点である最適な関数(強化学習におけるベルマン演算子とは?も参照)を定義します。彼はまた、いくつかの仮定を前提として、に収束するランダムプロセスに関する定理(n。2)を使用しています。(あなたが数学の人でないなら、証明は従うのが簡単ではないかもしれません。)QQQQQQQQQ000 関数を表すためにニューラルネットワークが使用されている場合、Q学習の収束保証は引き続き有効ですか?関数近似を使用するとQ学習が収束する(または収束しない)のはなぜですか?関数近似を使用したQ学習のそのような非収束の正式な証明はありますか?QQQQQQQQQ 私は、関数近似を使用するときにQQQラーニングの非収束の背後にある直感を与えるものから、形式的な証明(または形式的な証明のある論文へのリンク)を提供するものへのさまざまなタイプの回答を探しています。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.