ダイナミクスの学習


8

私は最近、州で行動を起こすことの期待値を直接推定する強化学習手法であるQラーニングについて学びました。

システムのダイナミクスを推定するために「ダイナミクス学習」を行う手法はあるのでしょうか。「ダイナミクス学習」エージェントは、状態遷移関数の推定に役立つアクションを選択したり、既知の遷移関数のパラメーターを推定したりできます。

たとえば、カートポールシステムの「ダイナミクス学習」エージェントは、カートポールの運動方程式を近似する関数を発見します。または、エージェントはこれらの方程式を知っているかもしれませんが、振り子の慣性モーメントやカートの質量などのシステムのパラメータは知りません。

「ダイナミクス学習」を行うにはどのようなテクニックがありますか?

回答:


4

3つの問題があります。まず、ダイナミクスのモデルのクラスを選択する必要があります。次に、エージェントをさまざまな軌道に乗せて状態空間を探索することにより、トレーニングセットを作成する必要があります。3番目に、このトレーニングセットから特定のダイナミクスモデルを学習または推測する方法が必要です。これらの各タスクをインスタンス化する方法はいくつかあります。

ロボット工学では、1つの一般的な選択は、動力学モデルにマルコフ決定プロセス(MDP)を使用することです。これは便利な選択です。トレーニングセットからMDPを学習する比較的標準的な方法があり、MDPダイナミクスモデルが与えられた場合、ダイナミクスを考慮に入れるシステムのコントローラーを構築する方法がよく研究されているためです。別のオプションは、より高次のマルコフ決定プロセスまたは部分的に観察可能なマルコフ決定プロセスを使用することですが、それらを使用するのははるかに扱いにくい場合があります。

状態空間を探索するには多くの方法があります。Pieter Abbeelの博士論文の第3.1章には、2008年現在の概要があります。

トレーニングセットを指定してMDPを推測/学習するには、最尤推定を使用できます。より高度な手法も可能です。これの概要については、Abbeelの博士論文を参照してください(第3章と第4章)。

より一般的には、制御理論の分野からのシステム同定に関する文献を参照してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.