タグ付けされた質問 「reinforcement-learning」

アルゴリズムがさまざまな報酬に関連付けられたアクションを適応的に実行することにより、オンラインで環境の構造を学習し、獲得した報酬を最大化できる一連の動的戦略。

2
ニューラルネットワークを使用したQラーニングに関する質問
で説明されているようにQラーニングを実装しました。 http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf 約するために。Q(S、A)次のようなニューラルネットワーク構造を使用します。 活性化シグモイド 入力、入力数+アクションニューロンの1(すべての入力は0〜1にスケーリング) 出力、単一出力。Q値 N個のM隠しレイヤー。 探索方法random 0 <rand()<propExplore 次の式を使用した各学習反復で、 Q-Target値を計算してから、 error = QTarget - LastQValueReturnedFromNN ニューラルネットワークを介してエラーを逆伝播します。 Q1、私は正しい軌道に乗っていますか?私は、アクションごとに1つの出力ニューロンを持つNNを実装するいくつかの論文を見てきました。 Q2、私の報酬関数は-1と1の間の数を返します。アクティベーション関数がシグモイド(0 1)の場合、-1と1の間の数を返すことは問題ありませんか Q3、十分なトレーニングインスタンスが与えられたこの方法の理解から、最適なポリシーを見つけるために隔離する必要がありますか?XORのトレーニングでは、2k回の反復後に学習する場合がありますが、40k 50kの反復後でも学習しない場合があります。

1
GAM vs LOESS vsスプライン
コンテキスト:パラメトリックではない散布図に線を描画したいのでgeom_smooth()、ggplotin を使用していRます。geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.一般化された加法モデルのGAMスタンドを収集し、3次スプラインを使用して自動的に戻ります。 次の認識は正しいですか? レスは、特定の値で応答を推定します。 スプラインは、データ(一般化された加法モデルを構成する)に適合するさまざまな区分的関数を接続する近似であり、3次スプラインはここで使用される特定のタイプのスプラインです。 最後に、スプラインはいつ使用する必要があり、LOESSはいつ使用する必要がありますか?

1
ディープQラーニングのエピソードとエポックの違いは何ですか?
有名な論文「深層強化学習でアタリを弾く」(pdf)を理解しようとしています。エポックとエピソードの違いはわかりません。アルゴリズムでは、外側のループはエピソードの上にありますが、図では、x軸に「エポック」というラベルが付けられています。強化学習のコンテキストでは、エポックの意味がわかりません。エポックはエピソードループの外側のループですか? 111222

1
深層強化学習が不安定なのはなぜですか?
DeepMindの深層強化学習に関する2015年の論文では、「RLをニューラルネットワークと組み合わせる以前の試みは、学習が不安定であったために大部分失敗しました」と述べています。次に、この論文では、観測全体の相関に基づいて、この原因の一部をリストしています。 誰かがこれが何を意味するのか説明してもらえますか?ニューラルネットワークは、トレーニングには存在するがテストには存在しない可能性のある構造を学習する、過剰適合の形式ですか?それとも別の意味ですか? 論文は次の場所にあります:http : //www.nature.com/nature/journal/v518/n7540/full/nature14236.html そして、私が理解しようとしているセクションは次のとおりです。 強化学習は、ニューラルネットワークなどの非線形関数近似器を使用してアクション値(Qとも呼ばれる)関数を表す場合、不安定であるか、発散することさえ知られています。この不安定性にはいくつかの原因があります。一連の観測に存在する相関関係、Qの小さな更新がポリシーを大幅に変更し、それによってデータ分布を変更する可能性、およびアクション値とターゲット値の相関関係。 これらの不安定性に対処するには、2つの重要なアイデアを使用するQラーニングの新しいバリアントを使用します。最初に、データをランダム化するエクスペリエンスリプレイと呼ばれる生物学的にヒントを得たメカニズムを使用して、観測シーケンスの相関を削除し、データ分布の変化を平滑化しました。第二に、定期的にのみ更新されるターゲット値に向かってアクション値(Q)を調整する反復更新を使用し、それによりターゲットとの相関を減らしました。

4
他のすべてのポリシー以上のポリシーが常に少なくとも1つあるのはなぜですか?
強化学習:はじめに。 第2版​​、進行中。、リチャードS.サットンおよびアンドリューG.バート(c)2012、pp。67-68。 強化学習タスクを解決するということは、おおまかに言って、長期的に多くの報酬を達成するポリシーを見つけることを意味します。有限MDPの場合、次の方法で最適なポリシーを正確に定義できます。値関数は、ポリシーに対する部分的な順序付けを定義します。ポリシーポリシーに等しいか、より良くなるように定義されたその期待収益がより大きい場合またはそれに等しいすべての状態のため、。つまり、すべて、場合に限り、となります。他のすべてのポリシーと同等以上のポリシーが常に少なくとも1つあります。これは最適なポリシーです。ππ\piπ′π′\pi'π′π′\pi'π≥π′π≥π′\pi \geq \pi'vπ(s)≥vπ′(s)vπ(s)≥vπ′(s)v_\pi(s) \geq v_{\pi'}(s)s∈Ss∈Ss \in \mathcal{S} 他のすべてのポリシー以上のポリシーが常に少なくとも1つあるのはなぜですか?

1
nアームのバンディット問題を解決するための最適なアルゴリズム?
私は次のようにn型武装盗賊の問題を解決するためのアルゴリズムの数について読んだ -greedy、ソフトマックス、およびUCB1、私は後悔を最小限に抑えるために何が最善かのアプローチをソートいくつかの問題を抱えています。ϵϵ\epsilon nアームのバンディット問題を解決するための既知の最適なアルゴリズムはありますか?実際に最高のパフォーマンスを発揮するアルゴリズムの選択肢はありますか?

2
エクスペリエンスの再生にポリシー外のアルゴリズムが必要なのはなぜですか?
DQNを紹介する論文「深層強化学習でAtariをプレイする」では、次のように言及しています。 エクスペリエンスリプレイで学習する場合は、ポリシー外で学習する必要があることに注意してください(現在のパラメーターはサンプルの生成に使用したパラメーターと異なるため)。これにより、Qラーニングの選択が動機付けられます。 意味がよくわかりませんでした。SARSAを使用a'しs'て、メモリ内で実行するアクションのアクションを記憶し、それからバッチをサンプリングし、DQNで行ったようにQを更新するとどうなりますか?また、俳優批評的手法(特定の場合はA3C)でエクスペリエンスリプレイを使用できますか?そうでない場合、なぜですか?

2
機械学習の問題を回帰フレームワークに変換する
私は説明変数のパネルがあるとため、、、ならびにバイナリ結果従属変数のベクトルを。したがって、は最終時間でのみ観測され、それ以前の時間では観測されません。完全に一般的なケースは、各ユニットに対して各時刻にに対して複数のを持たせることですが、簡潔にするためにケース注目しましょう。私は= 1 。。XitXitX_{it}i=1...Ni=1...Ni = 1 ... Nt=1...Tt=1...Tt = 1 ... TYiTYiTY_{iT}YYYTTTXijtXijtX_{ijt}j=1...Kj=1...Kj=1...KiiitttK=1K=1K=1 このような「アンバランス」ペアと時間相関の説明変数の適用例は、(毎日の株価、四半期ごとの配当)、(毎日の天気予報、毎年のハリケーン)または(各移動後のチェスポジションフィーチャ、勝ち/負け結果)です。ゲームの終わり)。(X,Y)(X,Y)(X, Y) 私は、回帰係数(おそらく非直線的)に興味があります行うための予測のトレーニングデータに、初期の観測与えられたことを知って、Xを私トンのためのT &lt; T、それが最終的な結果につながるのY I Tβtβt\beta_tYitYitY_{it}XitXitX_{it}t&lt;Tt&lt;Tt < TYiTYiTY_{iT} Y^it=f(∑tk=1Xikβk),t=1...TY^it=f(∑k=1tXikβk),t=1...T\hat{Y}_{it} = f(\sum_{k=1}^{t} X_{ik} \beta_k), \quad t = 1 ... T 計量経済学のバックグラウンドから来て、そのようなデータに適用される回帰モデリングはあまり見ていません。OTOH、私はそのようなデータに次の機械学習技術が適用されているのを見てきました。 データセット全体で教師付き学習を行う、例えば最小化 ∑i,t12(Yit−f(Xitβt))2∑i,t12(Yit−f(Xitβt))2\sum_{i,t}\frac{1}{2}(Y_{it} - f(X_{it} \beta_t))^2 観測されたYを過去のすべての時点に外挿/代入するだけでYYY Yit≡YiT,t=1...T−1Yit≡YiT,t=1...T−1Y_{it} \equiv Y_{iT}, \quad t = 1... T-1 これは、異なる時点間の一時的な相関関係を考慮しないため、「間違っている」と感じます。 やって強化学習パラメータの学習で、このような一時的な差としてのおよび割引パラメータλを、再帰的解決のためにβ トンから始まる逆伝搬を通じてT = …

1
線形関数近似で重みをQ値に適合させる方法
強化学習では、大きな状態空間が存在する場合に線形関数近似がよく使用されます。(テーブルをルックアップすると実行不可能になります。) 線形関数近似による値の形式は、Q -Q−Q- Q (s 、a )= w1f1(s 、a )+ w2f2(s 、a )+ ⋯ 、Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots, ここで、は重み、は特徴です。F Iw私wiw_if私fif_i 機能はユーザーによって事前定義されています。私の質問は、重みはどのように割り当てられるのですか? 関数近似を使用したラーニングに関する講義スライドをいくつか読んだりダウンロードしたりしました。それらのほとんどは、次の線形回帰に関するスライドがあります。単なるスライドなので、不完全になる傾向があります。2つのトピック間の関係/関係は何ですか。Q -Q−Q-

2
モンテカルロ法が時間差法よりも好ましいのはいつですか?
私は最近、強化学習について多くの研究を行っています。私は、サットン&バルトの強化学習:これの大部分についての紹介をフォローしました。 マルコフ決定プロセスとは何か、動的プログラミング(DP)、モンテカルロ、時間差(DP)の学習を使用してそれらを解決する方法を知っています。問題私がいるが、モンテカルロはTD-過剰学習より良いオプションになるとき、私は見ていないということです。 それらの間の主な違いは、TD学習がアクション値関数を近似するためにブートストラップを使用し、モンテカルロがこれを達成するために平均を使用することです。これがより良い方法であるとき、私は本当にシナリオを考えることができません。 私の推測では、それはパフォーマンスと関係があるかもしれませんが、これを証明できるソースを見つけることができません。 私は何かが足りないのですか、それともTD学習が一般的にはより良い選択肢ですか?

1
AlphaGoのペーパーのロールアウトポリシーとは何ですか?
論文はこちらです。 ロールアウトポリシー...は、高速でインクリメンタルに計算されたローカルパターンベースの機能に基づく線形のソフトマックスポリシーです... ロールアウトポリシーとは何か、およびそれが移動を選択するポリシーネットワークとどのように関連するのかわかりません。簡単な説明はありますか?

1
関数近似としてニューラルネットワークを使用したQ学習
ニューラルネットワークを使用したQラーニングに関する質問のように、QラーニングのQ値を概算するためにニューラルネットワークを使用しようとしています。最初の回答で提案したように、私は出力層に線形活性化関数を使用していますが、非表示層ではまだシグモイド活性化関数を使用しています(2、後で変更できます)。また、アドバイスどおり各アクション出力を返す単一のNNを使用しています。Q(a)Q(a)Q(a) ただし、アルゴリズムは、単純なカートポールバランス問題についてはまだ分岐しています。だから、私のQアップデートが間違っているのを恐れています。初期化後、各ステップで行ったのは次のとおりです。 すべてのアクションのNNの順方向伝搬を使用してを計算します。Qt(st)Qt(st)Q_t(s_t) 新しいアクション選択し、新しい状態ます。atata_tststs_t すべてのアクションに対してNNのフォワードプロパゲーションを使用してを計算します。Qt(st+1)Qt(st+1)Q_t(s_{t+1}) 目標Q値を次のように設定します: だけ現在のアクションのために、A_tと、設定しながらQ_ {T + 1}(S、A_tと)= Q_ {T}(S、A_tとの)他の状態のために。これは問題だと思います。Qt+1(st,at)=Qt(st,at)+αt[rt+1+γmaxaQ(st+1,a)−Qt(st,at)]Qt+1(st,at)=Qt(st,at)+αt[rt+1+γmaxaQ(st+1,a)−Qt(st,at)]Q_{t+1}(s_t,a_t)=Q_t(s_t,a_t)+\alpha_t \left[r_{t+1}+\gamma \max_a Q(s_{t+1},a) - Q_t(s_t,a_t) \right]atata_tQt+1(s,at)=Qt(s,at)Qt+1(s,at)=Qt(s,at)Q_{t+1}(s,a_t)=Q_{t}(s,a_t) エラーベクトルをe=Qtarget−Qt=Qt+1−Qte=Qtarget−Qt=Qt+1−Qt\mathbf{e}=Q_\mathrm{target}-Q_t=Q_{t+1}-Q_t 重み行列を更新するために、NNを介してエラーを逆伝播します。 誰かが私が間違ったことを私に指摘してくれませんか? さらに、入力層と最初の非表示層(つまり、シグモイド関数)にもバイアス項を含める必要があると思いますか?違いはありますか? よろしくお願いします。質問を明確にしたり、必要に応じてコードを共有したりできます。


1
P(Y | X)の非iidサンプルとP(Y | X)のiidサンプルからの確率的勾配降下法を介してP(Y | X)のモデルをトレーニングできますか?
一部のデータセットで確率勾配降下法を介して(たとえば、可能性を最大化するために)パラメーター化されたモデルをトレーニングする場合、トレーニングサンプルはトレーニングデータ分布からiidで描画されると一般に想定されています。したがって、目標が共同分布をモデル化することである場合、各トレーニングサンプルはその分布からiidで描画されます。P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) 代わりに条件付き分布をモデル化することが目的である場合、iid要件はどのように変化しますか?P(Y|X)P(Y|X)P(Y|X) それでも、共同分布から各サンプル iidを描画する必要がありますか?(xi,yi)(xi,yi)(x_i,y_i) から iid を描画し、次にから iidを描画しますか?xixix_iP(X)P(X)P(X)yiyiy_iP(Y|X)P(Y|X)P(Y|X) 私たちが描くことができからIIDない(例えば、時間を超える相関)、そして描きからIID?xixix_iP(X)P(X)P(X)yiyiy_iP(Y|X)P(Y|X)P(Y|X) 確率的勾配降下法に対するこれら3つのアプローチの妥当性についてコメントできますか?(または、必要に応じて質問を言い換えてください。) できれば#3をやりたいです。私のアプリケーションは強化学習であり、パラメーター化された条件付きモデルを制御ポリシーとして使用しています。状態のシーケンスは高度に相関していますが、アクションは、状態を条件とする確率的ポリシーからサンプリングされます。結果のサンプル(またはそれらのサブセット)は、ポリシーのトレーニングに使用されます。(言い換えると、ある環境で制御ポリシーを長時間実行し、状態/アクションサンプルのデータセットを収集することを想像してください。その後、状態が経時的に相関している場合でも、アクションは独立して生成され、状態を条件とします。)これは、このホワイトペーパーの状況と多少似ています。xixix_iyiyiy_i(xi,yi)(xi,yi)(x_i,y_i) 私はRyabko、2006年の「条件付き独立データのパターン認識」という論文を見つけました。ただし、状況は私が必要としているものとは逆になり、(ラベル/カテゴリ/アクション)はからiidではなく描画でき、(オブジェクト/パターン/状態)はからiidで描画されます。yiyiy_iP(Y)P(Y)P(Y)xixix_iP(X|Y)P(X|Y)P(X|Y) 更新: Ryabko論文で言及された2つの論文(hereとhere)は、ここで関連性があるようです。彼らは、が任意のプロセス(たとえば、iidではなく、おそらく非定常)からのものであると想定しています。彼らは、この場合、最近傍とカーネル推定量が一致していることを示しています。しかし、私はこの状況で確率的勾配降下に基づく推定が有効であるかどうかにもっと興味があります。xixix_i

2
ポリシー反復アルゴリズムが最適なポリシーと価値関数に収束するのはなぜですか?
私は強化学習に関するAndrew Ngの講義ノートを読んでおり、ポリシーの反復が最適値関数と最適ポリシー収束する理由を理解しようとしていました。V∗V∗V^*π∗π∗\pi^* リコールポリシーの反復は次のとおりです。 Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)} \text{Initialize $\pi$ randomly} \\ \text{Repeat}\{\\ \quad Let \ V := …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.