タグ付けされた質問 「q-learning」

4
Q-Learningがテスト中にepsilon-greedyを使用するのはなぜですか?
Deep MindのAtariビデオゲームのDeep Q-Learningに関する論文(こちら)では、トレーニング中の探索にイプシロングリディ法を使用しています。これは、トレーニングでアクションが選択されると、最高のq値を持つアクションとして選択されるか、ランダムアクションとして選択されることを意味します。これら2つの選択はランダムで、イプシロンの値に基づき、イプシロンはトレーニング中にアニールされ、最初は多くのランダムなアクションが実行されます(探索)が、トレーニングが進むにつれて、最大q値を持つアクションが多く実行されます(搾取)。 次に、テスト中に、彼らはこのイプシロン貪欲法も使用しますが、イプシロンは非常に低い値であるため、探査よりも搾取に強いバイアスがあり、ランダムアクションよりも最も高いq値を持つアクションを選択します。ただし、ランダムアクションが選択されることもあります(時間の5%)。 私の質問は次のとおりです。トレーニングが既に行われているのに、なぜこの時点で調査が必要なのですか システムが最適なポリシーを学習した場合、最高のq値を持つアクションとして常にアクションを選択できないのはなぜですか?トレーニングでのみ調査を行い、最適なポリシーを学習したら、エージェントは最適なアクションを繰り返し選択できますか? ありがとう!


1
ディープQラーニングのエピソードとエポックの違いは何ですか?
有名な論文「深層強化学習でアタリを弾く」(pdf)を理解しようとしています。エポックとエピソードの違いはわかりません。アルゴリズムでは、外側のループはエピソードの上にありますが、図では、x軸に「エポック」というラベルが付けられています。強化学習のコンテキストでは、エポックの意味がわかりません。エポックはエピソードループの外側のループですか? 111222

1
Deep Q-Learning損失関数を正確に計算するにはどうすればよいですか?
Deep Q-Learning Networkの損失関数がどの程度正確にトレーニングされているのか疑問です。私は、線形出力層とRelu非表示層のある2層フィードフォワードネットワークを使用しています。 4つのアクションがあるとします。したがって、現在の状態に対する私のネットワークの出力はです。より具体的にするために、と仮定しましょうststs_tQ(st)∈R4Q(st)∈R4Q(s_t) \in \mathbb{R}^4Q(st)=[1.3,0.4,4.3,1.5]Q(st)=[1.3,0.4,4.3,1.5]Q(s_t) = [1.3, 0.4, 4.3, 1.5] 次に、値対応するアクション、つまり3番目のアクションを実行し、新しい状態到達します。at=2at=2a_t = 24.34.34.3st + 1st+1s_{t+1} 次に、状態フォワードパスを計算し、出力レイヤー次の値を取得するとします。また、報酬ととしましょう。st + 1st+1s_{t+1}Q (st + 1)= [ 9.1 、2.4 、0.1 、0.3 ]Q(st+1)=[9.1,2.4,0.1,0.3]Q(s_{t+1}) = [9.1, 2.4, 0.1, 0.3]rt= 2rt=2r_t = 2γ= 1.0γ=1.0\gamma = 1.0 損失は​​以下によって与えられます: L =(11.1−4.3)2L=(11.1−4.3)2\mathcal{L} = (11.1- 4.3)^2 または L = 14Σ3i = …

1
強化学習アルゴリズムの概要
私は現在、強化学習アルゴリズムの概要と、おそらくそれらの分類を探しています。しかし、SarsaとQ-Learning + Deep Q-Learningの隣には、人気のあるアルゴリズムは本当に見つかりません。 ウィキペディアでは、さまざまな一般的な強化学習方法の概要を説明していますが、この方法を実装するさまざまなアルゴリズムへの参照はありません。 しかし、多分私は一般的なアプローチとアルゴリズムを混乱させており、基本的にこの分野には、機械学習の他の分野のように、実際の分類はありません。誰かが私に短い紹介や、さまざまなアプローチ、それらの違い、このアプローチを実装するアルゴリズムの例の違いを読み始めることができるリファレンスのみを教えてもらえますか?

2
非定常環境での強化学習
Q1:強化学習一般で非定常環境を処理するための一般的な方法または受け入れられている方法はありますか? Q2:グリッドワールドで、州にアクセスすると報酬関数が変化します。エピソードごとに報酬が初期状態にリセットされます。エージェントに学習してもらいたいのは、「本当に必要な場合以外は戻らないでください」だけですが、これにより環境が非定常になります。この非常に単純なルールをMDPモデルに組み込むことはできますか?Qラーニングは、この問題に対処するための最良の解決策ですか?提案や利用可能な例はありますか? Q3:継続的な更新を非相関化するため、静止していない環境を処理するためのソリューションとして、エクスペリエンスの再生を伴うQラーニングを検討しています。これはメソッドの正しい使い方ですか、それとも学習をより効率的にするための対処法ですか?そして、私はそれを値の近似で使用するのを見ただけです。gridworldのように単純な離散化された状態空間に使用するのはやり過ぎなのか、それとも別の理由があるのか​​はわかりません。 すべての質問に対応できない場合でも、お気軽に回答またはコメントしてください。

4
コックスハザードモデルの生存曲線を解釈するにはどうすればよいですか?
コックス比例ハザードモデルから生存曲線をどのように解釈しますか? このおもちゃの例ではage、kidneyデータの変数にcox比例ハザードモデルがあり、生存曲線を生成するとします。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() たとえば、時間、どのステートメントが正しいですか?または両方が間違っていますか?200200200 ステートメント1:被験者は20%残ります(たとえば、人がいる場合、200日目までに、およそ200人が残っているはずです)。 100010001000200200200200200200 ステートメント2:特定の人に対して、彼/彼女は200日目に生存する可能性がます。20%20%20\%200200200 βTxβTx\beta^Tx

1
アクションごとに1つの出力ユニットがある場合、ニューラルネットワークでのQ学習はどの程度効率的ですか?
背景: 強化学習タスクでニューラルネットワークのQ値の近似を使用しています。アプローチは、この質問で説明したものとまったく同じですが、質問自体が異なります。 このアプローチでは、出力の数は、実行できるアクションの数です。簡単な言葉で言えば、アルゴリズムは次のとおりです。アクションAを実行し、報酬を調べ、NNにすべての可能なアクションのQ値を予測し、最大Q値を選択し、特定のアクションAのQをとして計算しR + max(new_state_Q)ます。予測されたQ値にモデルを近似し、そのうちの1つだけをに置き換えR + max(new_state_Q)ます。 質問:出力数が多い場合、このアプローチはどの程度効率的ですか? 試行:実行できるアクションが10あるとします。各ステップで、モデルに10個の値を予測するように依頼します。モデルの初期の年齢では、この予測は完全に混乱しています。次に、出力の1つの値を変更し、これらの値にモデルを適合させます。 私はこのアプローチがどのように良い/悪いかについて反対の考えを2つ持っており、どちらが正しいかを判断できません。 1つの観点から、ランダムデータで各ニューロンを9回トレーニングし、実際の値に近いデータで1回だけトレーニングします。NNが状態SのアクションAに対して5を予測したが、実際の値が-100の場合、NNを値5で9回、次に値-100で1回当てはめます。クレイジーですね。 他の観点から見ると、ニューラルネットワークの学習はエラーの逆伝播として実装されているため、モデルが5を予測して5でトレーニングしている場合、エラーは0であるため、新しい学習は行われません。重みは影響を受けません。そして、-100を計算してモデルに適合させる場合にのみ、重みの再計算を行います。 どのオプションが正しいですか?多分私が考慮していない他の何かがありますか? 更新: 「どれほど効率的」とは、1つの出力-予測報酬を伴うアプローチと比較することを意味します。もちろん、この場合、アクションは入力の一部になります。したがって、アプローチ#1はある状態に基づいてすべてのアクションの予測を行い、アプローチ#2はある状態で行われた特定のアクションの予測を行います。

3
Qラーニング(強化学習)に遷移確率がないのはなぜですか?
強化学習の目的は、次のように定義される状態値関数またはアクション値関数を最適化することです。 Vπs= ∑ p (s』| s、π(s ))[ r (s』| s、π(s ))+ γVπ(s』)] = Eπ[ r (s』| s、a)+γVπ(s』)| s0= s ]Vsπ=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s] Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Q^{\pi}(s,a) = \sum p(s'|s,s)[r(s'|s,a)+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s,a_0=a] ただし、Q学習メソッドを使用して最適な戦略を取得する場合、更新メソッドは次のようになります。 Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]Q(S,A) \leftarrow \ Q(S,A) + \alpha [R+\gamma max_a(Q(s',a)) -Q(S,A)] 私の質問は: なぜQ学習で何の遷移確率が存在しない。MDPをモデリングするときに、このは必要ないということですか?pp(s′|s,a)p(s′|s,a)p(s'|s,a)ppp

2
Dyna-Qでの計画は、経験の再現の形式ですか?
ではRLのリチャード・サットンの本(第2版)、彼は計画と学習を組み合わせたダイナ-Qアルゴリズムを提示します。 アルゴリズムの計画部分で、Dynaエージェントはn個の状態とアクションのペアをランダムにサンプリングします(s 、a )(s,a)(s, a) エージェントによって以前に認識され、このペアを環境のモデルにフィードし、サンプリングされた次の状態を取得します s』s′s'そして、報酬。次に、このセットを使用して、通常のQ学習更新を実行します。rrr(s 、a 、r 、s』)(s,a,r,s′)(s,a,r,s') 確定的環境では、与えられた状態とアクションのペアの報酬と次の状態は常に同じです。Dyna-Qに関する彼の章では、サットンはこのプロセスを一種の体験リプレイであるとは言及せず、本の後半で後者の概念を紹介するだけです。ただし、これら2つのプロセスの違い(ある場合)は実際にはわかりません。(st、at)→ (rt + 1、s』t + 1)(st、at)→(rt+1、st+1』)(s_t,a_t)\to(r_{t+1},s_{t+1}') 確定的な環境では、Tabular Dyna-Qでの計画は経験の再現の 1つの形式であると言って間違いありませんか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.