強化学習とPID制御をいつ使用する必要がありますか？

OpenAIGymのLunar Landerなどの問題の解決策を設計する場合、強化学習はエージェントに適切なアクションコントロールを与えて着陸に成功させる魅力的な手段です。

しかし、PIDコントローラーなどの制御システムアルゴリズムが強化学習よりも優れているとしても、適切な仕事をするインスタンスは何ですか？

このような質問は、この質問の理論に取り組む上で素晴らしい仕事をしますが、実際的な要素に取り組むことはほとんどありません。

人工知能エンジニアとして、PIDコントローラーでは問題を解決するには不十分であり、代わりに強化学習アルゴリズムを使用する（またはその逆）必要があることを、問題ドメインのどの要素が示唆する必要がありますか？

reinforcement-learning ai-design control-theory

私がPIDについて持っている基本的な考えは、設計が容易ではないと言うことです。多くの積分と微分が関係しています。したがって、これは基本的に、統計をMLアプローチに置き換えるときと同じ考え方です。制御システムは間違いなく完璧ですが、手間がかかりすぎます。

— DuttaA

実際、それはあまり多くの作業ではなく、業界でかなり標準的なもので、MATLABのような最新のシステム設計ツールを使用して、PIDまたはニーズを満たす比較的簡単な他のコントローラーを調整できます。強化学習は豊富なデータを必要とし、古典的な制御理論にあるような理論的な保証がないため、実際には適用されません。ちなみに、コントローラーの設計には積分/微分を直接使用する必要はありません。線形システムの場合、すべての作業は単純な代数操作を含むラプラス領域で行われます

— Brale_

@Brale_しかし、それはまだ多くの理論的知識を含んでいます。ラプラス領域は微分を単純化するだけですが、システムが不安定にならないように物事（極と零点）を設計する方法を知る必要があります。それらが実際にどのように機能するかを視覚化するのはかなり難しいです。

— DuttaA

過去のプロジェクトで私を助けた良い経験則として、最適なポリシー（PID、RLなど）をいくつかの文で説明できない場合、PIDは本当に難しいでしょう。パックマンにとって最適なポリシーは何ですか？

— ジェイデン

コメントは基本的に正しい軌道に乗っていると思います。

PIDコントローラーは、継続的な動的システムで最適なポリシーを見つけるのに役立ちます。これらのドメインは、RLのベンチマークとしても使用されます。ただし、実際には、簡単に設計できるドメインにはPIDコントローラーを使用することをお勧めします。コントローラーの動作はよく理解されていますが、RLソリューションは解釈が難しいことがよくあります。

RLが輝くのは、良い行動がどのように見えるかを知っているタスク（つまり、報酬関数を知っている）、およびセンサー入力がどのように見えるかを知っているタスクです（つまり、特定の状態を数値的に完全に正確に記述することができます）または、それらの報酬を達成するためにエージェントに実際に何をしてほしいかわからない。

これが良い例です：

最小の燃料を使用して、既知の移動パターンを持つ敵機の前から後ろに飛行機を操縦するエージェントを作成したい場合は、PIDコントローラーを使用することをお勧めします。
飛行機を制御し、十分な燃料が残っている敵機を撃agentするエージェントを作成したいが、敵機がどのように攻撃する可能性があるかについての正式な説明なしにしたい場合、RLの方がずっと好きです。

— ジョン・ドゥシェット
ソース