私は最近、州で行動を起こすことの期待値を直接推定する強化学習手法であるQラーニングについて学びました。
システムのダイナミクスを推定するために「ダイナミクス学習」を行う手法はあるのでしょうか。「ダイナミクス学習」エージェントは、状態遷移関数の推定に役立つアクションを選択したり、既知の遷移関数のパラメーターを推定したりできます。
たとえば、カートポールシステムの「ダイナミクス学習」エージェントは、カートポールの運動方程式を近似する関数を発見します。または、エージェントはこれらの方程式を知っているかもしれませんが、振り子の慣性モーメントやカートの質量などのシステムのパラメータは知りません。
「ダイナミクス学習」を行うにはどのようなテクニックがありますか?