タグ付けされた質問 「reinforcement-learning」

外部のポジティブ強化またはネガティブフィードバック信号、あるいはその両方によって制御される学習に関連する質問。


1
Qラーニングとポリシーグラデーションメソッドの関係は何ですか?
私の知る限り、RLの問題を解決するために使用される2つの主要なアプローチは、Qラーニングとポリシーグラデーション(PG)です。Qラーニングは特定の状態で実行された特定のアクションの報酬を予測することを目的としていますが、ポリシーの勾配はアクション自体を直接予測します。 ただし、どちらのアプローチも私と同じように見えます。つまり、アクションの最大報酬の予測(Qラーニング)は、アクションを直接行う確率(PG)の予測と同等です。損失が逆伝播する方法に違いはありますか?

4
強化学習で無効な動きを処理する方法は?
5列/五目並べをプレイできるAIを作りたい。タイトルで述べたように、これには強化学習を使用します。 私は、使用ポリシー勾配すなわちベースラインと、補強、方法。値とポリシー関数の近似には、ニューラルネットワークを使用します。畳み込み層と完全に接続された層があります。出力を除くすべてのレイヤーが共有されます。ポリシーの出力層には、(ボードのサイズ)出力ユニットとsoftmaxがあります。したがって、確率的です。しかし、ネットワークが無効な移動の可能性が非常に高い場合はどうでしょうか?無効な移動とは、エージェントが1つの「X」または「O」を含む正方形をチェックしたい場合です。私はそれがそのゲーム状態で立ち往生できると思います。8 × 8 = 648×8=648 \times 8=64 この問題の解決策をお勧めしますか? 私の推測では、俳優と批評家の方法を使用することです。無効な動きについては、負の報酬を与え、相手にターンを渡す必要があります。

2
強化学習で状態を定義する方法は?
私は強化学習とその変形を研究しています。私は、アルゴリズムがどのように機能し、MDPにどのように適用されるのかを理解し始めています。私が理解していないのは、MDPの状態を定義するプロセスです。ほとんどの例とチュートリアルでは、グリッド内の正方形などの単純なものを表しています。 ロボットの歩行学習など、より複雑な問題については、それらの状態をどのように定義しますか?学習または分類アルゴリズムを使用して、これらの状態を「学習」できますか?

2
サンプル効率とは何ですか?また、それを達成するために重要度サンプリングをどのように使用できますか?
たとえば、このホワイトペーパーのタイトルは、「エクスペリエンスリプレイを使用した効率的な俳優-評論家のサンプル」です。 サンプル効率とは何ですか?また、それを達成するために重要度サンプリングをどのように使用できますか?

1
強化学習の例にドロップアウトレイヤーが表示されないのはなぜですか?
私は強化学習を検討しており、特にOpenAI Gym AIで使用するための独自の環境の作成をいじっています。stable_baselinesプロジェクトのエージェントを使用してテストしています。 ほぼすべてのRLの例で気付いたことの1つは、どのネットワークにもドロップアウトレイヤーが存在しないように見えることです。どうしてこれなの? 通貨価格をシミュレートする環境と、DQNを使用して、売買のタイミングを学習しようとする単純なエージェントを作成しました。1か月分の5分間の価格データからなる特定のデータセットから取得した、ほぼ100万時間を超えるトレーニングは、非常に適しているようです。次に、別の月のデータに対してエージェントとモデルを評価すると、わずかなパフォーマンスしか得られません。古典的なオーバーフィッティングのように聞こえます。 しかし、RLネットワークでドロップアウトレイヤーが表示されない理由はありますか?過剰適合を試みて対処する他のメカニズムはありますか?または多くのRLの例では問題ではありませんか?たとえば、「ブレイクアウト」ゲームで究極のハイスコアを達成するための真の方法は1つしかない可能性があるため、正確に学習し、一般化する必要はありません。 それとも、環境自体の無秩序な性質が、ドロップアウトレイヤーを用意する必要がない、結果のさまざまな組み合わせを提供するはずだと考えられていますか?

1
強化学習とPID制御をいつ使用する必要がありますか?
OpenAIGymのLunar Landerなどの問題の解決策を設計する場合、強化学習はエージェントに適切なアクションコントロールを与えて着陸に成功させる魅力的な手段です。 しかし、PIDコントローラーなどの制御システムアルゴリズムが強化学習よりも優れているとしても、適切な仕事をするインスタンスは何ですか? このような質問は、この質問の理論に取り組む上で素晴らしい仕事をしますが、実際的な要素に取り組むことはほとんどありません。 人工知能エンジニアとして、PIDコントローラーでは問題を解決するには不十分であり、代わりに強化学習アルゴリズムを使用する(またはその逆)必要があることを、問題ドメインのどの要素が示唆する必要がありますか?

3
ゲーム以外の強化学習のアプリケーションはありますか?
ゲーム以外のアプリケーションで強化学習を教える方法はありますか? インターネットで見つけることができる唯一の例は、ゲームエージェントです。VNCは強化ネットワークを介してゲームへの入力を制御することを理解しています。これをCADソフトウェアなどでセットアップすることは可能ですか?

1
DQNに2つの異なるネットワークが必要なのはなぜですか?
私はを経たこの DQNの実装と私はライン124および125上の2つの異なるQネットワークが初期化されていることがわかります。私の理解から、私は1つのネットワークが適切なアクションを予測し、2番目のネットワークがベルマン誤差を見つけるためのターゲットQ値を予測すると思います。 Q値を予測するだけの単一のネットワークを作成して、両方の場合に使用できないのはなぜですか?計算時間を短縮するために行われたと私は推測しています。それ以外の場合は、各アクションのq値を見つけて、最適なものを選択する必要があります。これが唯一の理由ですか?何か不足していますか?

3
強化学習で制約付きアクションスペースを実装する方法?
Tensorflowの上に構築された非常に優れたTensorforceライブラリのおかげで、PPOエージェントで強化学習モデルをコーディングしています。 最初のバージョンは非常にシンプルでしたが、今では各ステップですべてのアクションを使用できない、より複雑な環境に飛び込んでいます。 5つのアクションがあり、それらの可用性が内部状態(前のアクションおよび/または新しい状態/観測スペースによって定義される)に依存するとします。 2つのアクション(0と1)は常に利用可能です 2つのアクション(2および3)は、internal_state == 0の場合にのみ使用できます 1つのアクション(4)は、internal_state == 1の場合にのみ使用できます したがって、internal_state == 0の場合は4つのアクションが利用可能であり、internal_state == 1の場合は3つのアクションが利用可能です。 私はそれを実装するいくつかの可能性を考えています: internal_stateに応じて、各ステップでアクションスペースを変更します。これはナンセンスだと思います。 何もしない:使用できないアクションを選択しても影響がないことをモデルに理解させます。 ほとんど何もしない:モデルが利用できないアクションを選択したときに、報酬にわずかにマイナスの影響を与えます。 モデルを支援する:モデルにinternal_state値+箇条書き2または3を通知する整数を状態/監視スペースに組み込む これを実装する他の方法はありますか?あなたの経験から、どれが一番いいですか?

2
関数近似を使用するとQラーニングが収束しないのはなぜですか?
表形式のQ学習アルゴリズムは、学習率に関する以下の条件(Robbins-Monro条件)が満たされていれば、最適な関数を見つけることが保証されていますQQQQ∗Q∗Q^* ∑tαt(s,a)=∞Σtαt(s、a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞Σtαt2(s、a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty ここで、は、タイムステップで状態およびアクション関連付けられた値を更新するときに使用される学習率を意味します。ここで、はtrueであると想定されます。すべての状態のとアクション。αt(s,a)αt(s、a)\alpha_t(s, a)QQQsssaaattt0≤αt(s,a)&lt;10≤αt(s、a)&lt;10 \leq \alpha_t(s, a) < 1sssaaa 明らかに、場合、2つの条件がtrueになるためには、すべての状態とアクションのペアに無限にアクセスする必要があります。これは、本の強化学習:はじめににも記載されています、これは広く知られている必要があるという事実とは別に、トレーニング中に -greedyポリシー(または同様のポリシー)を使用する根拠となっています。0≤αt(s,a)&lt;10≤αt(s、a)&lt;10 \leq \alpha_t(s, a) < 1ϵε\epsilon Qラーニングが最適な関数を見つけることを示す完全な証明は、ラーニングの収束:単純な証明(Francisco S. Melo)の論文にあります。彼は、収縮マッピングのような概念を使用して、この収縮演算子の固定小数点である最適な関数(強化学習におけるベルマン演算子とは?も参照)を定義します。彼はまた、いくつかの仮定を前提として、に収束するランダムプロセスに関する定理(n。2)を使用しています。(あなたが数学の人でないなら、証明は従うのが簡単ではないかもしれません。)QQQQQQQQQ000 関数を表すためにニューラルネットワークが使用されている場合、Q学習の収束保証は引き続き有効ですか?関数近似を使用するとQ学習が収束する(または収束しない)のはなぜですか?関数近似を使用したQ学習のそのような非収束の正式な証明はありますか?QQQQQQQQQ 私は、関数近似を使用するときにQQQラーニングの非収束の背後にある直感を与えるものから、形式的な証明(または形式的な証明のある論文へのリンク)を提供するものへのさまざまなタイプの回答を探しています。

3
REINFORCEアルゴリズムの割引率が2回表示されるのはなぜですか?
私は「強化学習:リチャードS.サットンとアンドリューG.バルトによる序論(完全なドラフト、2017年11月5日)」という本を読んでいました。 271ページに、一時的なモンテカルロポリシー勾配法の疑似コードが示されています。この疑似コードを見ると、なぜ割引率が2回表示されるように見えるのか理解できません。1回は更新状態で、2回目は返品内です。【下図参照】 ステップ1の後のステップの戻りは、最初のステップの戻りの単なる切り捨てのようです。また、本の上の1ページだけを見ると、割引率が1つだけの方程式(戻り値内の方程式)が見つかります。 では、なぜ疑似コードが異なるように見えるのですか?私は何かを誤解していると思います: θt + 1 =˙ θt+ α Gt∇θπ(At|St、θt)π(At|St、θt)。(13.6)(13.6)θt+1 =˙ θt+αGt∇θπ(あt|St、θt)π(あt|St、θt)。 {\mathbf{\theta}}_{t+1} ~\dot{=}~\mathbf{\theta}_t + \alpha G_t \frac{{\nabla}_{\mathbf{\theta}} \pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}{\pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}. \tag{13.6}

1
ML / RLコミュニティで最新の研究者を維持する方法は?
機械学習に取り組みたい学生として、自分の研究を開始する方法と、それをフォローして最新の状態に保つ方法を知りたいです。たとえば、RLとMABの問題に積極的に取り組みますが、これらのトピックに関する膨大な文献があります。さらに、これらのトピックは、AIやML、オペレーションリサーチ、制御工学、統計など、さまざまなコミュニティの研究者によって研究されています。また、これらのトピックについては、毎週いくつかの論文が公開されているため、追跡するのが非常に難しいと思います。 誰かがこれらのトピックの研究を開始するためのロードマップを提案し、それに従って、新しい出版された論文をどのように選択して研究すべきかを教えていただければありがたいです。最後に、RLとMABの問題の新しい傾向を知りたいと思います。

1
複数の連続アクションの場合にポリシーの勾配をどのように適用できますか?
Trusted Region Policy Optimization(TRPO)とProximal Policy Optimization(PPO)は、2つの最先端のポリシーグラディエントアルゴリズムです。 単一の連続アクションを使用する場合、通常、損失関数に確率分布(たとえば、ガウス分布)を使用します。大まかなバージョンは次のとおりです。 L (θ )= ログ(P(a1))A 、L(θ)=ログ⁡(P(a1))あ、L(\theta) = \log(P(a_1)) A, どこああA報酬の利点である、P(a1)P(a1)P(a_1)によって特徴付けられるμμ\muとσ2σ2\sigma^2ここでは振り子の環境にいるかのように、ニューラルネットワークから出てくるもの:https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4 /main.py。 問題は、ポリシーグラディエントを使用した2+連続アクションに関する論文が見つからないことです(Q関数からグラディエントを転送することで別のアプローチを使用する俳優批評家のメソッドではありません)。 LunarLander環境で2つの連続アクションにTRPOを使用してこれを行う方法を知っていますか? 次のアプローチは、政策勾配損失関数に対して正しいですか? L (θ )= (logP(a)+ ログP(a2))∗ AL(θ)=(ログ⁡P(a)+ログ⁡P(a2))∗あL(\theta) = (\log P(a_) + \log P(a_2) )*A

3
環境も確率的である場合、最適なポリシーは常に確率的ですか?
環境も確率的である場合、最適なポリシーは常に確率的(つまり、状態からアクションの確率分布へのマップ)ですか? 直感的に、環境がある場合には、確定(エージェントが状態にある場合、であるsssと行動取るaaa、次の状態s′s′s'、そして最適なポリシーも決定論的である必要があり、常に同じで、どんなに時間ステップを) (つまり、アクションからの確率分布ではなく、状態からアクションへのマップである必要があります)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.