タグ付けされた質問 「reinforcement-learning」

アルゴリズムがさまざまな報酬に関連付けられたアクションを適応的に実行することにより、オンラインで環境の構造を学習し、獲得した報酬を最大化できる一連の動的戦略。

1
Deep Q-Learning損失関数を正確に計算するにはどうすればよいですか?
Deep Q-Learning Networkの損失関数がどの程度正確にトレーニングされているのか疑問です。私は、線形出力層とRelu非表示層のある2層フィードフォワードネットワークを使用しています。 4つのアクションがあるとします。したがって、現在の状態に対する私のネットワークの出力はです。より具体的にするために、と仮定しましょうststs_tQ(st)∈R4Q(st)∈R4Q(s_t) \in \mathbb{R}^4Q(st)=[1.3,0.4,4.3,1.5]Q(st)=[1.3,0.4,4.3,1.5]Q(s_t) = [1.3, 0.4, 4.3, 1.5] 次に、値対応するアクション、つまり3番目のアクションを実行し、新しい状態到達します。at=2at=2a_t = 24.34.34.3st + 1st+1s_{t+1} 次に、状態フォワードパスを計算し、出力レイヤー次の値を取得するとします。また、報酬ととしましょう。st + 1st+1s_{t+1}Q (st + 1)= [ 9.1 、2.4 、0.1 、0.3 ]Q(st+1)=[9.1,2.4,0.1,0.3]Q(s_{t+1}) = [9.1, 2.4, 0.1, 0.3]rt= 2rt=2r_t = 2γ= 1.0γ=1.0\gamma = 1.0 損失は​​以下によって与えられます: L =(11.1−4.3)2L=(11.1−4.3)2\mathcal{L} = (11.1- 4.3)^2 または L = 14Σ3i = …

1
強化学習アルゴリズムの概要
私は現在、強化学習アルゴリズムの概要と、おそらくそれらの分類を探しています。しかし、SarsaとQ-Learning + Deep Q-Learningの隣には、人気のあるアルゴリズムは本当に見つかりません。 ウィキペディアでは、さまざまな一般的な強化学習方法の概要を説明していますが、この方法を実装するさまざまなアルゴリズムへの参照はありません。 しかし、多分私は一般的なアプローチとアルゴリズムを混乱させており、基本的にこの分野には、機械学習の他の分野のように、実際の分類はありません。誰かが私に短い紹介や、さまざまなアプローチ、それらの違い、このアプローチを実装するアルゴリズムの例の違いを読み始めることができるリファレンスのみを教えてもらえますか?

2
非定常環境での強化学習
Q1:強化学習一般で非定常環境を処理するための一般的な方法または受け入れられている方法はありますか? Q2:グリッドワールドで、州にアクセスすると報酬関数が変化します。エピソードごとに報酬が初期状態にリセットされます。エージェントに学習してもらいたいのは、「本当に必要な場合以外は戻らないでください」だけですが、これにより環境が非定常になります。この非常に単純なルールをMDPモデルに組み込むことはできますか?Qラーニングは、この問題に対処するための最良の解決策ですか?提案や利用可能な例はありますか? Q3:継続的な更新を非相関化するため、静止していない環境を処理するためのソリューションとして、エクスペリエンスの再生を伴うQラーニングを検討しています。これはメソッドの正しい使い方ですか、それとも学習をより効率的にするための対処法ですか?そして、私はそれを値の近似で使用するのを見ただけです。gridworldのように単純な離散化された状態空間に使用するのはやり過ぎなのか、それとも別の理由があるのか​​はわかりません。 すべての質問に対応できない場合でも、お気軽に回答またはコメントしてください。

4
コックスハザードモデルの生存曲線を解釈するにはどうすればよいですか?
コックス比例ハザードモデルから生存曲線をどのように解釈しますか? このおもちゃの例ではage、kidneyデータの変数にcox比例ハザードモデルがあり、生存曲線を生成するとします。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() たとえば、時間、どのステートメントが正しいですか?または両方が間違っていますか?200200200 ステートメント1:被験者は20%残ります(たとえば、人がいる場合、200日目までに、およそ200人が残っているはずです)。 100010001000200200200200200200 ステートメント2:特定の人に対して、彼/彼女は200日目に生存する可能性がます。20%20%20\%200200200 βTxβTx\beta^Tx

1
アクションごとに1つの出力ユニットがある場合、ニューラルネットワークでのQ学習はどの程度効率的ですか?
背景: 強化学習タスクでニューラルネットワークのQ値の近似を使用しています。アプローチは、この質問で説明したものとまったく同じですが、質問自体が異なります。 このアプローチでは、出力の数は、実行できるアクションの数です。簡単な言葉で言えば、アルゴリズムは次のとおりです。アクションAを実行し、報酬を調べ、NNにすべての可能なアクションのQ値を予測し、最大Q値を選択し、特定のアクションAのQをとして計算しR + max(new_state_Q)ます。予測されたQ値にモデルを近似し、そのうちの1つだけをに置き換えR + max(new_state_Q)ます。 質問:出力数が多い場合、このアプローチはどの程度効率的ですか? 試行:実行できるアクションが10あるとします。各ステップで、モデルに10個の値を予測するように依頼します。モデルの初期の年齢では、この予測は完全に混乱しています。次に、出力の1つの値を変更し、これらの値にモデルを適合させます。 私はこのアプローチがどのように良い/悪いかについて反対の考えを2つ持っており、どちらが正しいかを判断できません。 1つの観点から、ランダムデータで各ニューロンを9回トレーニングし、実際の値に近いデータで1回だけトレーニングします。NNが状態SのアクションAに対して5を予測したが、実際の値が-100の場合、NNを値5で9回、次に値-100で1回当てはめます。クレイジーですね。 他の観点から見ると、ニューラルネットワークの学習はエラーの逆伝播として実装されているため、モデルが5を予測して5でトレーニングしている場合、エラーは0であるため、新しい学習は行われません。重みは影響を受けません。そして、-100を計算してモデルに適合させる場合にのみ、重みの再計算を行います。 どのオプションが正しいですか?多分私が考慮していない他の何かがありますか? 更新: 「どれほど効率的」とは、1つの出力-予測報酬を伴うアプローチと比較することを意味します。もちろん、この場合、アクションは入力の一部になります。したがって、アプローチ#1はある状態に基づいてすべてのアクションの予測を行い、アプローチ#2はある状態で行われた特定のアクションの予測を行います。

5
強化学習のサンプルから報酬関数を学習する必要があるのはなぜですか?
強化学習では、エージェントに現在の行動と状態がどの程度うまく行っているかをエージェントに通知する報酬機能があります。いくつかの一般的な設定では、報酬関数は3つの変数の関数です。 現在の状態SSS 現在の状態での現在のアクションπ(s)=aπ(s)=a\pi(s) = a 次の状態S′S′S' したがって、次のようになります。 R(S,a,S′)R(S,a,S′)R(S, a, S') 私の質問は何ですか(おそらく私の誤解です)、通常、強化学習を使用している人が報酬を決定します。たとえば、目標に到達するために1000ポイントを割り当てたり、自律ロボットをクラッシュさせるために-1000ポイントを割り当てたりします。これらのシナリオでは、なぜRを学習するためにサンプルが必要になるのかがはっきりしません。Rは事前に指定されたものであり、エージェントを使用します。正しい?しかし、私は私が間違っていることを知っています。 報酬関数が明確にわからないと彼が言ったところ。それは私には奇妙に思えます。私は間違っていることを知っています。実際にサンプルからRを学習する必要があるシナリオを誰かに説明してもらえたら幸いです。 (明らかに、環境によってエージェントがアプリオリにどのように動くのかわからないため、遷移確率を学習する必要があります)。


1
強化学習における俳優批評家損失関数
強化学習の俳優批評学習では、あなたが取る行動を決定する「俳優」と、それらの行動を評価する「批評家」がいると理解していますが、私は損失関数が実際に何を言っているのか混乱しています私。 Sutton and Bartonの本のページ274(pdfの292)でここhttp://ufal.mff.cuni.cz/~straka/courses/npfl114/2016/sutton-bookdraft2016sep.pdfにあります それらはアルゴリズムを記述します。 状態値(批評家によって決定された)に関する情報を組み込むことにより、アクターを更新したいと理解できます。これは、δδ\delta これは上記の情報を組み込んでいますが、状態値関数の勾配を調べている理由がよくわかりません。 最小化しようとしている目的関数の勾配を見ているのではないですか?この章の前半で、彼はポリシーのパフォーマンスを単純にその値関数と見なすことができると述べています。この場合、各状態の値を最大化する方向にパラメーターを調整するだけです。それは政策を調整することによってなされるべきだと私は思った、私たちは状態を評価する方法を変えることによってではない。 ありがとう

2
機械学習の信頼上限
k武装バンディット問題の信頼限界の上限を求める式に出くわしました。 c ln N私ん私−−−−−√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} ここで、はこの特定の盗賊のために持っているサンプルの量であり、はすべての盗賊から持っているサンプルの総量です。モンテカルロツリー検索でも同じアルゴリズムが使用され、信頼限界の上限が取得されます。N iん私nin_iN私NiN_i 私は信頼限界の上限が何であるかを非常に明確に理解していますが、私が理解していないのは、この公式がどこから来たかです。私はいくつかの場所でオンラインを調べてみましたが、この式がどのように導出されるかについての明確な説明は見つかりませんでした。誰かがこの式がどこから来たかを説明できますか?統計の背景がよくないと思います。

2
ポリシーは強化学習において常に決定論的ですか?
強化学習では、ポリシーは常に確定的ですか、それともアクション(私たちがサンプリングしたもの)に対する確率分布ですか?ポリシーが決定論的である場合、なぜ値関数ではないのですか?これは、特定のポリシーの特定の状態で次のように定義されますππ\pi Vπ(s)=E[∑t>0γtrt|s0=s,π]Vπ(s)=E[∑t>0γtrt|s0=s,π]V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 = s, \pi\right] ポイント出力? 上記の定義では、私たちは期待しています。この期待はどうですか? ポリシーが別のルートにつながることはありますか?

3
履歴データの強化学習
お客様に最適なコミュニケーションの方針(どの通知を送信するか、何通送信するか、いつ送信するか)の学習に取り組んでいます。送信された過去の通知(タイムスタンプ付き)とそのパフォーマンスの履歴データがあります。最適なポリシーを学習するために、RLをこの問題に適用しようとしていました。ただし、ここでの主な制約の1つは、現在アクション(どの通知をどの顧客に送信できるか)を制御していないため、ポリシーをその場で(オンラインで)学習する余裕がないことです。2つの質問があります。 RLはそのような制約の下で適切なフレームワークですか? このような状況でオフラインで最適なポリシーを学習するにはどうすればよいですか?

3
Qラーニング(強化学習)に遷移確率がないのはなぜですか?
強化学習の目的は、次のように定義される状態値関数またはアクション値関数を最適化することです。 Vπs= ∑ p (s』| s、π(s ))[ r (s』| s、π(s ))+ γVπ(s』)] = Eπ[ r (s』| s、a)+γVπ(s』)| s0= s ]Vsπ=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s] Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Q^{\pi}(s,a) = \sum p(s'|s,s)[r(s'|s,a)+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s,a_0=a] ただし、Q学習メソッドを使用して最適な戦略を取得する場合、更新メソッドは次のようになります。 Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]Q(S,A) \leftarrow \ Q(S,A) + \alpha [R+\gamma max_a(Q(s',a)) -Q(S,A)] 私の質問は: なぜQ学習で何の遷移確率が存在しない。MDPをモデリングするときに、このは必要ないということですか?pp(s′|s,a)p(s′|s,a)p(s'|s,a)ppp

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 


2
Dyna-Qでの計画は、経験の再現の形式ですか?
ではRLのリチャード・サットンの本(第2版)、彼は計画と学習を組み合わせたダイナ-Qアルゴリズムを提示します。 アルゴリズムの計画部分で、Dynaエージェントはn個の状態とアクションのペアをランダムにサンプリングします(s 、a )(s,a)(s, a) エージェントによって以前に認識され、このペアを環境のモデルにフィードし、サンプリングされた次の状態を取得します s』s′s'そして、報酬。次に、このセットを使用して、通常のQ学習更新を実行します。rrr(s 、a 、r 、s』)(s,a,r,s′)(s,a,r,s') 確定的環境では、与えられた状態とアクションのペアの報酬と次の状態は常に同じです。Dyna-Qに関する彼の章では、サットンはこのプロセスを一種の体験リプレイであるとは言及せず、本の後半で後者の概念を紹介するだけです。ただし、これら2つのプロセスの違い(ある場合)は実際にはわかりません。(st、at)→ (rt + 1、s』t + 1)(st、at)→(rt+1、st+1』)(s_t,a_t)\to(r_{t+1},s_{t+1}') 確定的な環境では、Tabular Dyna-Qでの計画は経験の再現の 1つの形式であると言って間違いありませんか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.