協調強化学習


10

収益を最大化することを目的とした動的な価格設定問題に取り組んでいる単一のエージェントに対して、機能している実装がすでにあります。ただし、私が取り組んでいる問題には、相互に置き換えられるいくつかの異なる製品が含まれるため、一方の価格が他方の報酬に影響を与えるため、独立した学習者によるすべての製品の動的な価格設定は正しくないようです。目標は、個々の収益の合計を最大化するように、動的に価格を設定することです。Q(λ)

私はこのように強化学習を適用するものを見つけるためにいくつかの研究を行ってきましたが、私が見つけた多くのマルチエージェントの実装は、協調よりも競争ゲームに焦点を当てているか、他のエージェントの不完全な知識を想定していますこのシナリオの各エージェントの知識)。このように共同学習の十分に研究され、文書化されたアプリケーションはありますか?

回答:



0

全体として、到達しようとしているのはパレート効率です。

連携させるには、すべてのプレーヤーが共有する単一の報酬関数を定義する必要があります(これは、何らかの形で個々の報酬関数を組み合わせる関数である場合があります)。

どういうわけか、あなたはある製品から得られる報酬を他の製品に対して重み付けする必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.