強化学習を使用したロボットに続くラインのプログラミング

強化学習アルゴリズムを使用して、ロボットに続くラインをプログラミングすることを検討しています。私が熟考している質問は、どのようにアルゴリズムを取得して、任意のパスをナビゲートすることを学ぶことができますか？

強化学習のためにサットン＆バルトブックをたどり、競馬場での運動の問題を解決しました。そこでは、車のエージェントがコースから出て速度を調整しないことを学びました。しかし、その運動の問題により、エージェントは訓練を受けたトラックをナビゲートする方法を学ぶことができました。

ロボットに任意の経路をナビゲートさせることは強化学習の範囲内ですか？エージェントはレースサーキットまたはパスのマップを絶対に持っている必要がありますか？状態空間にどのようなパラメーターを使用できますか？

— ロード・ロー。
ソース

方法はわかりませんが、形に関係なく、パス内に自分自身を保持するように教えることができると確信しています。この場合の指導の目標は、ロボットがその即時入力（またはおそらく何らかの履歴）に基づいてローカルで決定することです。このように、すべての決定はローカルであるため、パスの形状は重要ではありません。

— シャーバズ

@Shahbaz-状態空間に使用することをお勧めしますか？

— ローLord。

実はわからない。私は大学でAIを勉強しましたが、それは私の仕事/研究分野ではありませんでした。あなたが受け入れた答えは合理的なようです！

— シャーバズ

Markdownのテストに回答を使用していますか？必要なものを書くだけで、その下に即時レンダリングが表示され、投稿することはできません。

— Shahbaz

回答:

機械学習アルゴリズムの重要な尺度の1つは、一般化する能力です（つまり、学習したことを以前は見えなかったシナリオに適用します）。強化学習者（RL）はうまく一般化できますが、この能力は私の経験では状態空間の定式化の一部です。これは、適切なセットアップを見つけることができれば、RL学習者がレースサーキットのマップを必要としないことを意味します。

これにより、使用するパラメーターの問題が残ります。ロボットで使用可能なセンサーについて詳しく知ることなく、推測することしかできません。私の最初の傾向は、ラインとロボットの相対的な向きをエンコードしようとすることです（つまり、ロボットは右、左、または単にラインと平行に移動する傾向があります）。これを行うと、素敵な小さな状態空間が得られます。厳密に必要というわけではありませんが、すばやく簡単に実装できます。さらに、ロボットが一定の速度で移動しない場合は、ロボットが高速で移動するときに、より迅速に反応する必要があるため、ロボットの速度をエンコードするのに役立つ場合があります。

— DaemonMaker
ソース

マップがなければ、状態空間は、ロボットがその直接の位置から感知できるものです。そのため、ある程度までは、マップは「先読み」する方法にすぎません。マップレスシナリオで学習される動作は、基本的には「以前と同じことを行いますが、今回はターンがどこにあるかわからないため、遅くなります」です。（おそらく、トラックの端がどこにあるかを知ることができるでしょう。）

— イアン

ポリシーは、特定の状態に対して適用する制御を示します。状態空間がRLエージェント用に適切に定式化されている場合、明確に異なるシナリオが状態空間で同じに見え、同じ動作をもたらす可能性があります。これは一般化と呼ばれ、正しく行われる場合に望ましいです。ロボットは、制御ループの速度に基づいて最大速度になります。学んだ行動は、必ずしも速度を落とすことではありません。報酬が実行時間の長さに反比例する場合、エージェントはその制御ループの速度に対して速度を最大にする傾向があります。

— -DaemonMaker

私はあなたがどんなタイプのロボットを持っているのか分かりませんが、私は数年前からロボカップレスキューラインをやっています。私は、PIDを使用してうまく行を追跡したい場合には良い選択肢であることに気づきました。これについて詳しく説明します。線の両側に2つの光センサーがある場合、線が中央になるように等しい値にする必要があります。次に、2つのセンサーの値の差を使用して、ロボットの回転率を変更できます。この手法を使用すると、ロボットを並外れた速度でラインに追従させることができます。私はあなたがロボットにそのライン追跡能力を改善することを学ばせることを考えているように。私が思いついたのは、初期のPID値をあなたが望むよりも高い値から始め、ジャイロセンサーを使用して、ラインを追跡するロボットの振動の周波数を測定することです。そこから独自の関数を作成して、安定したシステムを取得するために値をどれだけ下げるかを決定できます。これは、自動化最適化アルゴリズムのような人工知能ではありませんが、ちょっと18インターネット。これがお役に立てば幸いです。クエリがある場合、これは私のメインのメールアドレスではないので、定期的にチェックすることはありません。69darkeagle@sigaint.org

— オマール・キー
ソース