OpenAIGymのLunar Landerなどの問題の解決策を設計する場合、強化学習はエージェントに適切なアクションコントロールを与えて着陸に成功させる魅力的な手段です。
しかし、PIDコントローラーなどの制御システムアルゴリズムが強化学習よりも優れているとしても、適切な仕事をするインスタンスは何ですか?
このような質問は、この質問の理論に取り組む上で素晴らしい仕事をしますが、実際的な要素に取り組むことはほとんどありません。
人工知能エンジニアとして、PIDコントローラーでは問題を解決するには不十分であり、代わりに強化学習アルゴリズムを使用する(またはその逆)必要があることを、問題ドメインのどの要素が示唆する必要がありますか?