Q1:強化学習一般で非定常環境を処理するための一般的な方法または受け入れられている方法はありますか?
α
ただし、これにより、エピソード間で変化する問題や、さらに長い時間スケールで発生する問題など、長期的な非定常性に対処できます。説明は、エージェントが実行したアクションに基づいて、短いタイムスケールで報酬構造を変更したいように見えます。アクションへのその動的応答は、より単純なMDP内の「非定常性」としてではなく、より複雑な別のMDPとして適切にフレーム化されます。
エージェントは、まだサンプリングしていない環境への変更を学習できないため、報酬構造を変更しても、エージェントが以前に訪問した状態に戻ることは妨げられません。エージェントでRNNのようなものを使用している場合を除き、エージェントは現在の状態で表現されているもの以外、エピソードで以前に起こったことの「記憶」を持ちません(おそらくRNNを使用すると、RNNパーツの非表示レイヤーが作成されます)状態の)。複数のエピソードにわたって、表形式のQラーニングエージェントを使用する場合、エージェントは特定の状態の値が低いことを単に学習します。状態への2回目または3回目の訪問がその効果の原因であることを知ることはできません。その知識を表現する方法。オンラインとエピソードの中間を学ぶのに十分な速さで変化に適応することはできません。
Q2:グリッドワールドで、州にアクセスすると報酬関数が変化します。エージェントに学習してもらいたいのは、「本当に必要な場合以外は戻らないでください」だけですが、これにより環境が非定常になります。
エージェントが学習する必要があるのがそれだけである場合、おそらくこれは適切な報酬構造によって促進されます。それを行う前に、「本当に必要」が何を意味するか、そしてそれが論理的にどれほど緊密でなければならないかを理解する必要があります。ただし、エージェントがすでにまたは最近訪れた場所にアクセスするためのペナルティを割り当てるだけで大丈夫かもしれません。
この非常に単純なルールをMDPモデルに組み込むことはできますか?
はい、訪れた場所に関する情報を州に追加する必要があります。これはすぐに状態モデルを単純なグリッドの世界よりも複雑にし、問題の次元を増やしますが、それは避けられません。現実世界のほとんどの問題は、RLの概念を教えるために提供されているおもちゃの例をすぐに超えてしまいます。
1つの代替策は、問題を部分的に観察可能なマルコフ決定プロセス(POMDP)としてフレーム化することです。その場合、「真の」状態には、報酬を計算するために必要なすべての履歴が含まれます(これはコンピューターのおもちゃの問題であるため、何らかの形でそれを表す必要があります)、エージェントは制限付きの学習を試みることができます状態についての知識。一般に、これは状態の表現を拡張するよりもはるかに難しいアプローチであり、ここではお勧めしません。ただし、アイデアが興味深い場合は、問題を使用してPOMDPを探索できます。以下は、 POMDPを解決するためにRNNと組み合わせた2つのRLアルゴリズムを検討した最近の論文(GoogleのDeep Mindチーム、2015年)です。
Q3:継続的な更新を非相関化するため、静止していない環境を処理するためのソリューションとして、エクスペリエンスの再生を伴うQラーニングを検討しています。これはメソッドの正しい使い方ですか、それとも学習をより効率的にするための対処法ですか?
エクスペリエンスの再生は、非定常環境では役立ちません。実際には、パフォーマンスが低下する可能性があります。ただし、すでに述べたように、問題は実際には非定常環境ではなく、より複雑な状態ダイナミクスの処理に関するものです。
648 × 8264
関数推定器を使用すると、経験の再現は非常に役立ちます。これがないと、学習プロセスが不安定になる可能性があります。Atariゲームをプレイするための最近のDQNアプローチでは、この理由からエクスペリエンスリプレイを使用しています。