ニューラルネットによる強化学習について(Qラーニング)


9

ニューラルネットを関数近似器として使用している場合の強化学習とマルコフ決定過程(MDP)を理解しようとしています。

環境を確率論的に探索するMDPと、これがどのように学習パラメーターにマッピングされるか、そして最終的なソリューション/ポリシーがどのように見つかるかとの関係に問題があります。

Qラーニングの場合、ニューラルネットワークは本質的にq値自体の関数近似器として機能するため、将来は非常に多くのステップがあると私は思いますか?これは、バックプロパゲーションまたは他の方法を介して更新パラメーターにどのようにマッピングされますか?

また、ネットワークが将来の報酬を予測する方法を学習した後、これは実際に意思決定を行うという点でシステムにどのように適合しますか?私は、最終的なシステムが確率的に状態遷移を行わないことを想定しています。

ありがとう


回答:


4

Qラーニングでは、すべてのステップで観察と報酬を使用してQ値関数を更新します。

Qt+1stat=Qtstat+α[Rt+1+γ最高aQtst+1aQtstat]

ニューラルネットワークはq値関数の関数近似にすぎないと言って間違いありません。

一般に、近似部分は、標準的な教師あり学習問題です。ネットワークは(s、a)を入力として使用し、出力はq値です。q値が調整されると、これらの新しいサンプルをネットワークにトレーニングする必要があります。それでも、相関サンプルを使用するとSGDが影響を受けるため、いくつかの問題が見つかります。

DQNペーパーを見ると、状況が少し異なります。その場合、彼らがしていることは、サンプルをベクターに入れることです(体験の再生)。ネットワークを教えるために、彼らはベクトルからタプルをサンプリングし、この情報を使用してブートストラップを行い、ネットワークに教えられる新しいq値を取得します。教えるというときは、確率的勾配降下法やお気に入りの最適化アプローチを使用してネットワークパラメータを調整することを意味します。ポリシーによって収集されている順序でサンプルを教えないことで、サンプルを相関解除し、トレーニングに役立ちます。

最後に、状態決定するために、最高のq値を提供するアクションを選択します。s

as=argメートルaバツa Qsa

Q値関数が完全に学習され、環境が静止している場合、この時点で貪欲であるのは問題ありません。ただし、学習しながら、探求することが期待されています。 -greedyであるいくつかのアプローチがあり、最も簡単で最も一般的な方法の1つです。ε


ありがとうございます、これはとても便利です。明確にするために、システムがトレーニングされたら、現在の入力状態を含む可能な各アクションをニューラルネットワークにフィードし、最大の報酬(q値)を推定するアクションを選択しますか?
CatsLoveJazz 2016

1
正しい。ただし、環境が静止していない場合は、探索を継続することをお勧めします。一般的に、Qラーニングはオンラインで実行され、継続的にトレーニングを行います。
Juan Leni

すばらしい、あなたの答えを取り巻く文献を知っていますか?オンライントレーニングの代替案は、失敗した探索が本番環境のパフォーマンスに影響を与えないように、n期間ごとに新しく観測されたデータを再トレーニングすることです。
CatsLoveJazz 2016

1
私は基本的に探査と開発のジレンマについて言及しています。多くのアプローチがあります。簡単に適用できます:tokic.com/www/tokicm/publikationen/papers/…ここで、値関数のエラーに基づいてイプシロンを適応的に調整します
Juan Leni

1
古典はこのペーパー/本(1996)です:web.mit.edu/people/dimitrib/NDP_Encycl.pdfathenasc.com/ndpbook.html今日、ディープニューラルネットワークとRLを組み合わせる多くの作業があります。Deepmind論文は良い例です:storage.googleapis.com/deepmind-data/assets/papers/...
フアンレニ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.