強化学習技術を使ったライン追従ロボットの訓練についての質問に答えて、ロボットの訓練方法を考えさせられました。私は本質的に2つの方法があると信じています-
- 物理ロボットを訓練する。
- ロボットをモデル化し、トレーニングをシミュレートします。
- 私は何か見落としてますか?
アプローチ2は間違いなく優れたアプローチです。ただし、モーション(応答)の事前の知識は、ロボットが特定の状態にあるときに特定のPWM信号(刺激)が発生することを必要とします。PWM信号によって引き起こされる動きは、(1)現在のバッテリー電圧、(2)ロボットの質量、および(3)現在の速度(何か見落としましたか?)によって異なります。
このようなロボットをモデル化するにはどうすればよいですか?そして、それをどのようにすばやくモデル化するのですか?バッテリーを交換したり、ボードやその他の周辺機器を追加してロボットの質量を変更したりすると、ロボットを改造して再トレーニングする必要があります。ランダムな刺激PWMをいくつか提供し、応答を測定することで、これを実行できますか?
更新:言及する価値のあるIanによるタイトルへの提案された編集-「ダイナミクスが変化した場合、完全な再トレーニングが必要ないようにロボットをモデル化するにはどうすればよいですか?」これも良い質問だと思いますが、ここで私が尋ねているもの。とりあえず再トレーニングで大丈夫です。