継続的な状態/アクションスペースのMDPと強化学習について理解する


8

MDPと強化学習の分野の紹介のほとんどは、空間変数とアクション変数が整数(および有限)であるドメインにのみ焦点を当てています。このようにして、バリューイテレーション、Qラーニングなどをすばやく紹介します。

ただし、RLおよびMDP の最も興味深いアプリケーション(たとえば、ヘリコプターの飛行)には、連続的な状態空間とアクション空間が含まれます。基本的な導入を超えて、これらのケースに焦点を当てたいのですが、そこに到達する方法がわかりません。

これらのケースを詳細に理解するために、知っておく必要のある領域や勉強すべき領域は何ですか?

回答:


5

私の論文の提案には、強化学習における継続的な状態、行動、および時間の小さな調査があります。

本に関しては、強化学習:最先端技術は私が読んだ抜粋からかなり最新のようです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.