中間報酬は強化学習で使用できますか?


7

RLでは、タスクの終了時に報酬が1つだけ与えられることは一般的ですか?それとも、フィードバックがそれほど遅れずに、より多くの報酬(機能)が必要になるように、サブタスク/中間目標を導入することもできますか?

回答:


2

RLでは、タスクが最後に実行されたときに1つの報酬機能のみが付与されるのは一般的な慣習ですか?

これは、報酬関数の正しい定義ではありません。MDPには単一の報酬関数があり、R(s,a,s):S×A×SR、 どこ S,A状態のセット、問題のアクションです。引数の少ないバージョンが表示されることがあります。R(s,a) または R(s)

Rすべての状態遷移に対して報酬を返します。それらの多く、または1つを除くすべてがゼロになる可能性があります。または、他の中間状態には、正または負の報酬が含まれる場合があります。どちらも可能であり、特定のアプリケーションに依存します。

これは、ほとんどの強化学習論文の冒頭で見つかる定義です。たとえば、これは報酬形成に関する論文、最適なポリシーに影響を与えずに報酬関数を変更する方法に関する関連研究などです。


Qラーニングを考えていました。最終的には、ターゲットへの移行から始まる一歩離れた報酬が、軌道に沿ってすべての実行可能な初期状態に向かって伝播/拡散します。それは部分的な報酬と考えることができます。...異質なエージェントがQラーニングで考案され、1つは学習し、もう1つはターゲットへの軌道をより効率的に重み付けできるかどうかです。
EngrStudent 2018年

0

サブタスクに興味がある場合は、オプションを確認してください。オプションの他に、報酬関数が1つあります。


Rich Suttonによるオプションフレームワーク?
information_interchange

0

私はあなたの質問の短いバージョンはイエスだと思います、タスクの完全な完了に対してエージェントにのみ報酬を与えることは一般的な慣習であるように見えますが、ショーンが彼の回答で報酬関数が定義されていると指摘したように、あなたの表現には注意してください状態、アクション、および将来の状態のすべての可能な組み合わせ。

ショーンの答えに追加するには、リチャードサットンとアンドリューバートの強化学習に関する紹介本から抜粋した次のスニペットを検討してください。

報酬信号は、[エージェント]に伝えるのあなたの方法で何を、あなたはそれを達成するために望んでいないどのようにあなたはそれが(作者強調)を達成したいです。

たとえば、チェスをプレイするエージェントには、実際に勝利した場合にのみ報酬を与えるべきであり、対戦相手の駒を奪ったりセンターを支配したりするなどのサブゴールを達成するためには報酬を与えません。

それは彼らの本の中で推奨されるアプローチであるように見えますが、あなたは反対する他の人を見つけることができると確信しています。


1
goのような非常に大規模なゲームや多くの移動で、エージェントが最後に報酬のみを取得した場合にエージェントが実際に何かを達成する可能性さえあります(たとえば、Goが勝利した場合にのみ報酬を取得します...)。それらのゲームでは、ピースの数が限られているため、報酬が確実に得られると思います...
ピノキオ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.