タグ付けされた質問 「reinforcement-learning」

アルゴリズムがさまざまな報酬に関連付けられたアクションを適応的に実行することにより、オンラインで環境の構造を学習し、獲得した報酬を最大化できる一連の動的戦略。

3
Qラーニングがアクション値を過大評価するのはなぜですか?
標準のQ学習がq値を過大評価する傾向がある理由についての説明を見つけるのが困難です(二重Q学習を使用することで対処されます)。私が見つけた唯一の情報源は、この過大評価が発生する理由を正確に説明していません。 たとえば、Qラーニングに関するWikipediaの記事は次のように述べています。 概算された最大アクション値がQラーニングの更新で使用されるため、ノイズの多い環境では、Qラーニングがアクション値を過大評価し、学習を遅くすることがあります。 これは何を意味するのでしょうか?Qラーニングは理解できますが、上記は理解できません。最大q値の使用が過大評価を引き起こすのはなぜですか? ありがとう!

3
Deep Deterministic Policy Gradient(DDPG)アルゴリズムでのActor Gradient Updateの計算
この質問は、DDPGに関するディープマインドペーパー(https://arxiv.org/pdf/1509.02971v5.pdf)に関するものです。 私が見たほとんどの(すべて?)実装のDDPGアルゴリズムは、、ここではアクターネットワークのパラメーターを表し、はアクターネットワークを表し、は批評家ネットワークを表し、は状態を表します入力。これを式1と呼びます。∇ (J)=∇μ (s | θ )(Q (s 、μ (s | θ ))∇θ(μ (s | θ ))∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))\nabla(J)=\nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta))θθ\thetaμμ\muQQQsss 論文に示されている式1は、チェーンルールをことで得られます。これにより、。∇ (J)=∇θ(Q (s 、μ (s | θ ))∇(J)=∇θ(Q(s,μ(s|θ))\nabla(J)=\nabla_{\theta}(Q(s,\mu(s|\theta))∇μ (s | θ )(Q (s 、μ (s | θ ))∇θ(μ (s | θ ))∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ)) \nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta)) 私の質問は、auto-gradソフトウェアパッケージ(Theano / Tensorflow / Torch / etc)を使用して、 wrt出力の勾配を直接計算できなかった理由があるのですか?何らかの理由で、すべての実装は、最初に wrtの出力の勾配を計算してから、チェーンルールに従って wrtからへ勾配を乗算します。彼らがこれを行う理由がわかりません- …

1
マルチエージェントの俳優批評家のMADDPGアルゴリズムの混乱
私は、openAIからの論文「Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments」を理解しようとしています 論文では、サブポリシーからサンプリングすることにより、環境の非定常性の問題に対処していると述べています。 (1)サブサンプリングによって非定常性の問題がどのように解決されるのか、および(2)個々のエージェントに複数の可能な(サブ)ポリシーがある理由-各エージェントに単一の最適なポリシーがあるべきではないのですか?

2
強化学習はボブ・ロスのような絵を描くための正しい選択ですか?
私の職場では、2週間のコードの課題があり、いくつかの制約を前提として、100のサンプルボブロスの絵を可能な限り忠実に再現するアルゴリズムを作成する必要があります。 「ペイント」は、背景色と一連の「ブラシストローク」を含むJSONファイルとして送信されます。 ブラシストロークには、始点、終点、半径、および色があります。 絵ごとに500ストロークの制限があります。 100枚すべての参考絵画は、サイズとアスペクト比がまったく同じです:450x337。 サーバーは各送信を「ペイント」してから、参照ペイントを使用してピクセルごとの差分を行います。提出された絵画の各ピクセルは、ソースピクセルの値との類似性に基づいてスカラー0〜1の範囲でスコア付けされ、絵画のスコアはすべてのピクセルスコアの平均です。コンテストを実行している人々は、MacOS / Linuxのコマンドラインで実行できる画像の描画とスコアリングの両方のためのライブラリをリリースしました。 アルゴリズムが試行する各試行のきめ細かいスコアリングのメカニズムがあるため、この問題はMLの影響を受けやすいはずです。絵画の生成と採点には、約200ミリ秒しかかかりません。残念ながら、私はほとんどがMLファンであり(多くのポッドキャストを聴いています)、問題をどのようにモデル化すればよいかわかりません。 アルゴリズムで500の完全にランダムなストロークを作成し、出力を段階的に調整すると、有用なものに収束するのに永久に時間がかかります。(ペイントを開始する前にヒストグラムを実行して)ストロークのカラースペースを各ペイントで最も頻繁に使用される64色のセットに制限し、アルゴリズムのブラシサイズの選択を制限することを検討しました。 参考までに、最も一般的な色のベタフィールドである画像を送信しただけで、65%のスコアが得られました。現在勝っているアルゴリズムは、ほとんどの場合、絵画をグリッドに変換し、それぞれの上に各セクターの平均色のドットを配置するだけです。

2
Advantage Actor CriticとTD Actor Criticの違いは何ですか?
強化学習における俳優批評家の方法について質問があります。 これらのスライド(https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf)では、さまざまなタイプの俳優評論家について説明しています。アドバンテージ俳優批評家とTD俳優批評家は、最後のスライドで言及されています。 しかし、スライド「アドバンテージ関数の推定(2)」を見ると、アドバンテージ関数はtdエラーで近似できると言われています。次に、更新ルールには、TDアクター批評家と同じ方法でtdエラーが含まれます。 それで、アドバンテージ俳優批評家とtd俳優批評家は実際に同じですか?または、私が見ない違いはありますか?

2
畳み込みニューラルネットワークでの非長方形のカーネルの使用?特にゲームボードを分析するとき
私はたたみ込みネットワークと強化学習に関する大量の論文を読んでいます。 畳み込み層の形状が長方形ではない重要な紙(このばかげた図では緑色の形状)を見たのを覚えています。しかし、今は見つかりません。 それはAlphaGoの論文に似ているか、ゲームボードでの強化学習でした。 誰がそれがどの紙であったかを示唆または推測できますか?

1
サットンによる強化学習、チックタックトーの自己遊び
私はサットンとバルトの本、強化学習:はじめにを始めたばかりで、演習1.1:自己再生への答えをどう考えるかについて興味があります。ランダムな対戦相手と対戦する代わりに、上記の強化学習アルゴリズムがそれ自体と対戦するとします。この場合、どうなると思いますか?別の遊び方を学びますか? 以下の関連するサブ質問について考えることもできますが、それらは私の考えをより明確にしていません。 学習のランダムな部分を削除すると、状況が変わりますか?つまり、常に最適なポリシーに従い、探索しませんか? それは最初の発動者が誰であるかに依存しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.