タグ付けされた質問 「reinforcement-learning」

外部のポジティブ強化またはネガティブフィードバック信号、あるいはその両方によって制御される学習に関連する質問。

1
強化学習におけるベルマン演算子は何ですか?
数学では、演算子という単語は、いくつかの異なるが関連する概念を参照できます。演算子は、2つのベクトル空間の間の関数として定義でき、ドメインとコドメインが同じである関数として定義できます。または、関数(ベクトル)から他の関数​​(の場合)への関数として定義できます。たとえば、微分演算子)、つまり高次関数(関数プログラミングに精通している場合)。 強化学習(RL)におけるベルマン演算子とは何ですか?なぜそれが必要なのですか?ベルマン演算子は、RLのベルマン方程式とどのように関連していますか?

2
なぜベースラインはあるタイムステップの状態に条件があるのか
ロボット工学では、強化学習手法はロボットの制御パターンを見つけるために使用されます。残念ながら、ほとんどのポリシーグラディエントメソッドは統計的にバイアスがかかっており、ロボットを危険な状況に陥らせる可能性があります。JanPetersとStefan Schaalの 2ページを参照してください。 モータープリミティブ学習では、ポリシーの勾配パラメーターの最適化が学習ステップを目標に導くため、問題を克服することができます。 引用:「勾配推定が偏りがなく、学習率がsum(a)= 0を満たす場合、学習プロセスは少なくとも極小値に収束することが保証されます[...]したがって、生成されたデータのみからポリシー勾配を推定する必要がありますタスクの実行中。」(同じ論文の4ページ) Berkeley RLクラスの問題1 の宿題では、差し引かれたベースラインがタイムステップtでの状態の関数である場合、ポリシーの勾配が依然として不偏であることを示すように求められます。 ▽θ∑t=1TE(st,at)∼p(st,at)[b(st)]=0▽θ∑t=1TE(st,at)∼p(st,at)[b(st)]=0 \triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = 0 私はそのような証明の最初のステップが何であるかについて苦労しています。誰かが私を正しい方向に向けることができますか?私の当初の考えは、何らかの形で総期待値の法則を使用して、b(st)の期待値をTに条件付きにすることでしたが、確信が持てません。前もって感謝します :) 方程式の元のpngへのリンク

1
チェスのようなゲームへの強化学習の適用に関するいくつかの疑問
私はチェスのようなボードゲームを発明しました。自律的に遊べるようにエンジンを組みました。エンジンは基本的に決定木です。それはによって構成されています: 各ノードで可能なすべての合法的な動きを見つける検索機能 ボードの位置に数値を割り当てる評価関数(正の値は最初のプレーヤーが優勢を獲得していることを意味し、負の値は2番目のプレーヤーが代わりに勝利していることを意味します) アルファベット順枝刈りネガマックスアルゴリズム このエンジンの主な問題は、評価関数の最適化が非常に難しいことです。どの要素を考慮し、どの重みを設定するかわかりません。エンジンを改善するために私が見る唯一の方法は、係数と重みのさまざまな組み合わせを毎回試すゲームを繰り返すことです。しかし、それは計算上非常に困難な作業です(ディープラーニングを使用せずにバックプロパゲートできますか?)。 強化学習を使用して、エンジン自体と対戦してエンジンを改善したいと思います。私はそのトピックについて読んでいますが、私はまだかなり混乱しています。 勝ち負けの出力(1または0)の一部であるゲームの他の報酬は何ですか?各ターンの評価関数からの出力など、他の報酬を使用する場合、どのように実装できますか?反復ごとにより良い報酬を与えるように評価関数を変更するにはどうすればよいですか?

3
モンテカルロツリー検索は機械学習の資格がありますか?
私の理解の及ぶ限りでは、モンテカルロツリー検索(MCTS)アルゴリズムは、ノードのツリーを検索するためのミニマックスの代替手段です。これは、手(通常、最高になる可能性が最も高い手)を選択し、その手でランダムなプレイアウトを実行して結果を確認することで機能します。このプロセスは、割り当てられた時間だけ続きます。 これは機械学習のようには聞こえませんが、ツリーをトラバースする方法です。しかし、AlphaZeroがMCTSを使用していると聞いたので、混乱しています。AlphaZeroがMCTSを使用する場合、AlphaZeroはなぜ学習するのですか?それとも、AlphaZeroは、試合を行う前に何らかの機械学習を行ってから、機械学習から得た直感を使用して、MCTSでより多くの時間を費やすためにどの動きをするかを知りましたか?


1
ビデオゲームをプレイするために、強化学習とQ学習以外に他の機械学習モデルはありますか?
OpenAIのユニバースはRLアルゴリズムを利用しており、Qラーニングを使用したいくつかのゲームトレーニングプロジェクトについて聞いたことがありますが、ゲームをマスター/勝利するために使用される他のプロジェクトはありますか?遺伝的アルゴリズムを使用してゲームで勝つことはできますか?

1
継続的な状態/アクションスペースのMDPと強化学習について理解する
MDPと強化学習の分野の紹介のほとんどは、空間変数とアクション変数が整数(および有限)であるドメインにのみ焦点を当てています。このようにして、バリューイテレーション、Qラーニングなどをすばやく紹介します。 ただし、RLおよびMDP の最も興味深いアプリケーション(たとえば、ヘリコプターの飛行)には、連続的な状態空間とアクション空間が含まれます。基本的な導入を超えて、これらのケースに焦点を当てたいのですが、そこに到達する方法がわかりません。 これらのケースを詳細に理解するために、知っておく必要のある領域や勉強すべき領域は何ですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.