強化学習では、エージェントに現在の行動と状態がどの程度うまく行っているかをエージェントに通知する報酬機能があります。いくつかの一般的な設定では、報酬関数は3つの変数の関数です。
- 現在の状態
- 現在の状態での現在のアクション
- 次の状態
したがって、次のようになります。
私の質問は何ですか(おそらく私の誤解です)、通常、強化学習を使用している人が報酬を決定します。たとえば、目標に到達するために1000ポイントを割り当てたり、自律ロボットをクラッシュさせるために-1000ポイントを割り当てたりします。これらのシナリオでは、なぜRを学習するためにサンプルが必要になるのかがはっきりしません。Rは事前に指定されたものであり、エージェントを使用します。正しい?しかし、私は私が間違っていることを知っています。
報酬関数が明確にわからないと彼が言ったところ。それは私には奇妙に思えます。私は間違っていることを知っています。実際にサンプルからRを学習する必要があるシナリオを誰かに説明してもらえたら幸いです。
(明らかに、環境によってエージェントがアプリオリにどのように動くのかわからないため、遷移確率を学習する必要があります)。