非定常環境での強化学習


9

Q1:強化学習一般で非定常環境を処理するための一般的な方法または受け入れられている方法はありますか?

Q2:グリッドワールドで、州にアクセスすると報酬関数が変化します。エピソードごとに報酬が初期状態にリセットされます。エージェントに学習してもらいたいのは、「本当に必要な場合以外は戻らないでください」だけですが、これにより環境が非定常になります。この非常に単純なルールをMDPモデルに組み込むことはできますか?Qラーニングは、この問題に対処するための最良の解決策ですか?提案や利用可能な例はありますか?

Q3:継続的な更新を非相関化するため、静止していない環境を処理するためのソリューションとして、エクスペリエンスの再生を伴うQラーニングを検討しています。これはメソッドの正しい使い方ですか、それとも学習をより効率的にするための対処法ですか?そして、私はそれを値の近似で使用するのを見ただけです。gridworldのように単純な離散化された状態空間に使用するのはやり過ぎなのか、それとも別の理由があるのか​​はわかりません。

すべての質問に対応できない場合でも、お気軽に回答またはコメントしてください。

回答:


10

Q1:強化学習一般で非定常環境を処理するための一般的な方法または受け入れられている方法はありますか?

α

ただし、これにより、エピソード間で変化する問題や、さらに長い時間スケールで発生する問題など、長期的な非定常性に対処できます。説明は、エージェントが実行したアクションに基づいて、短いタイムスケールで報酬構造を変更したいように見えます。アクションへのその動的応答は、より単純なMDP内の「非定常性」としてではなく、より複雑な別のMDPとして適切にフレーム化されます。

エージェントは、まだサンプリングしていない環境への変更を学習できないため、報酬構造を変更しても、エージェントが以前に訪問した状態に戻ることは妨げられません。エージェントでRNNのようなものを使用している場合を除き、エージェントは現在の状態で表現されているもの以外、エピソードで以前に起こったことの「記憶」を持ちません(おそらくRNNを使用すると、RNNパーツの非表示レイヤーが作成されます)状態の)。複数のエピソードにわたって、表形式のQラーニングエージェントを使用する場合、エージェントは特定の状態の値が低いことを単に学習します。状態への2回目または3回目の訪問がその効果の原因であることを知ることはできません。その知識を表現する方法。オンラインとエピソードの中間を学ぶのに十分な速さで変化に適応することはできません。

Q2:グリッドワールドで、州にアクセスすると報酬関数が変化します。エージェントに学習してもらいたいのは、「本当に必要な場合以外は戻らないでください」だけですが、これにより環境が非定常になります。

エージェントが学習する必要があるのがそれだけである場合、おそらくこれは適切な報酬構造によって促進されます。それを行う前に、「本当に必要」が何を意味するか、そしてそれが論理的にどれほど緊密でなければならないかを理解する必要があります。ただし、エージェントがすでにまたは最近訪れた場所にアクセスするためのペナルティを割り当てるだけで大​​丈夫かもしれません。

この非常に単純なルールをMDPモデルに組み込むことはできますか?

はい、訪れた場所に関する情報を州に追加する必要があります。これはすぐに状態モデルを単純なグリッドの世界よりも複雑にし、問題の次元を増やしますが、それは避けられません。現実世界のほとんどの問題は、RLの概念を教えるために提供されているおもちゃの例をすぐに超えてしまいます。

1つの代替策は、問題を部分的に観察可能なマルコフ決定プロセス(POMDP)としてフレーム化することです。その場合、「真の」状態には、報酬を計算するために必要なすべての履歴が含まれます(これはコンピューターのおもちゃの問題であるため、何らかの形でそれを表す必要があります)、エージェントは制限付きの学習を試みることができます状態についての知識。一般に、これは状態の表現を拡張するよりもはるかに難しいアプローチであり、ここではお勧めしません。ただし、アイデアが興味深い場合は、問題を使用してPOMDPを探索できます。以下は、 POMDPを解決するためにRNN組み合わせた2つのRLアルゴリズムを検討した最近の論文(GoogleのDeep Mindチーム、2015年)です

Q3:継続的な更新を非相関化するため、静止していない環境を処理するためのソリューションとして、エクスペリエンスの再生を伴うQラーニングを検討しています。これはメソッドの正しい使い方ですか、それとも学習をより効率的にするための対処法ですか?

エクスペリエンスの再生は、非定常環境では役立ちません。実際には、パフォーマンスが低下する可能性があります。ただし、すでに述べたように、問題は実際には非定常環境ではなく、より複雑な状態ダイナミクスの処理に関するものです。

648×8264

関数推定器を使用すると、経験の再現は非常に役立ちます。これがないと、学習プロセスが不安定になる可能性があります。Atariゲームをプレイするための最近のDQNアプローチでは、この理由からエクスペリエンスリプレイを使用しています。


環境が非定常である場合、グリッドワールドの例で、時間t = 1の状態にあることは、t = 2の状態にあることと同じではないという事実にどのように対処しますか?それらを別々の状態として扱う場合、確かにあなたの状態空間の次元は爆発するだけでしょうか?
trytolearn

@tryingtolearn:マルコフ状態の要点は、MDPがそのポイントからどのように進行するかについてのすべての重要な詳細をキャプチャすることです。通常、t = 1の状態であることは、予想される将来の報酬と状態遷移の点で、t = 2の同じ状態であることと違いはありません。tの値に基づくルールを作成する場合は、tを状態にします。これは、任意のタイムステップで報酬を得ることができる場合に発生する可能性がありますが、タイムステップの数は限られています。たとえば、エピソードは常にt = 10で終了します。その場合、残り時間を知ることが重要になる可能性があります
Neil Slater

@NeilSlaterはPOMDPとRNNのアイデアをあなたの答えで拡張できますか?面白そうですね。そして、可能であれば、文献をナビゲートすることが難しい場合があるため、関連する情報源を提供します。訪問した状態のシーケンスを保持するという考えは本当に好きではありませんが、これは今のところ考えられる唯一のことなので、他のオプションを探しています。非常に単純なルールを導入する必要があることを考えると、モデルはそのように過度に複雑になります。非常に明白なものがないか、正しいモデルと定式化を使用していないのかわかりません。
Voltronika、2017年

@NeilSlaterポリシーグラディエントメソッドのようなものを使用することでこれを助けることはできませんか?実際に、これらの種類の問題を解決するための標準が何か知っていますか?
trytolearn

1
@Voltronika POMDPに関する段落を追加して回答を拡大しました。問題をPOMDPとしてフレーミングすると、訪問した場所の適切なメモリを含めるように状態を拡張するよりも、作業と解決がはるかに困難になることに注意してください。したがって、POMDPの研究が目標である場合にのみ、そのことを検討することをお勧めします。
Neil Slater

0

Q1:Qラーニングは、静止環境でうまく機能するオンライン強化学習アルゴリズムです。また、モデル(報酬関数と遷移確率)が速く変化しないという条件のある非定常モデルでも使用できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.