強化学習アルゴリズムを使用して、ロボットに続くラインをプログラミングすることを検討しています。私が熟考している質問は、どのようにアルゴリズムを取得して、任意のパスをナビゲートすることを学ぶことができますか?
強化学習のためにサットン&バルトブックをたどり、競馬場での運動の問題を解決しました。そこでは、車のエージェントがコースから出て速度を調整しないことを学びました。しかし、その運動の問題により、エージェントは訓練を受けたトラックをナビゲートする方法を学ぶことができました。
ロボットに任意の経路をナビゲートさせることは強化学習の範囲内ですか?エージェントはレースサーキットまたはパスのマップを絶対に持っている必要がありますか?状態空間にどのようなパラメーターを使用できますか?