ゲーム理論と強化学習の関係は何ですか?


11

(ディープ)強化学習(RL)に興味があります。この分野に飛び込む前に、ゲーム理論(GT)のコースを受講する必要がありますか?

GTRLはどのように関連していますか?


2
彼らはハンマーとホイップクリームとほぼ同じくらい関連しています。おそらく両方を使用できる問題を見つけることができますが、それは一般的ではありません。
Don Reba

4
@DonReba強化学習の有名な2人の研究者によると:udacity.com/course/…RLはエージェントが最適または良いポリシーをどのように学習できるかを説明する一方で、ゲーム理論は最適なポリシーを教えてくれると思います。
Kiuhnm

3
@DonReba、おそらくそれらで教えられている通常のコンテンツに関して。ただし、2つのフィールドの目的はそれほど異なりません。強化学習は、多くの場合1人のプレイヤーにとって、不完全な情報のゲームと見なすことができます。または、他のプレイヤーであるネイチャーが、発見したい一連のルールに従う2プレイヤーゲームとして。
推測

これは教育的でした。:)
Don Reba 2016

回答:


12

強化学習(RL)では、基礎となるマルコフ決定プロセス(MDP)を想像するのが一般的です。次に、RLの目標は、MDPの適切なポリシーを学習することです。これは、多くの場合、部分的にしか指定されていません。MDPには、合計報酬、平均報酬、割引報酬など、さまざまな目的があります。割引報酬は、RLの最も一般的な仮定です。十分に研究されたMDPの拡張機能があり、2プレイヤー(つまり、ゲーム)の設定になっています。たとえば、

Filar、Jerzy、およびKoos Vrieze。競争力のあるマルコフ決定プロセス。Springer Science&Business Media、2012年。

MDPによって共有される基本的な理論と、たとえば、バナッハの固定小数点定理、値の反復、ベルマン最適性、ポリシーの反復/戦略の改善など、2プレーヤー(ゼロサム)ゲームへの拡張があります。ただし、 MDP(およびRL)とこれらの特定のタイプのゲーム間のこれらの密接な接続:

  • GTを前提条件とせずに、RL(およびMDP)について直接学ぶことができます。
  • とにかく、大部分のGTコース(通常は、戦略形式、拡張形式、繰り返しゲームなどに焦点を当てていますが、MDPを一般化する状態ベースの無限ゲームには焦点を当てていません)では、このことについては学習しません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.