MDPと強化学習の分野の紹介のほとんどは、空間変数とアクション変数が整数(および有限)であるドメインにのみ焦点を当てています。このようにして、バリューイテレーション、Qラーニングなどをすばやく紹介します。
ただし、RLおよびMDP の最も興味深いアプリケーション(たとえば、ヘリコプターの飛行)には、連続的な状態空間とアクション空間が含まれます。基本的な導入を超えて、これらのケースに焦点を当てたいのですが、そこに到達する方法がわかりません。
これらのケースを詳細に理解するために、知っておく必要のある領域や勉強すべき領域は何ですか?