サットンによる強化学習、チックタックトーの自己遊び

私はサットンとバルトの本、強化学習：はじめにを始めたばかりで、演習1.1：自己再生への答えをどう考えるかについて興味があります。ランダムな対戦相手と対戦する代わりに、上記の強化学習アルゴリズムがそれ自体と対戦するとします。この場合、どうなると思いますか？別の遊び方を学びますか？

以下の関連するサブ質問について考えることもできますが、それらは私の考えをより明確にしていません。

学習のランダムな部分を削除すると、状況が変わりますか？つまり、常に最適なポリシーに従い、探索しませんか？
それは最初の発動者が誰であるかに依存しますか？

reinforcement-learning

— Dayum
ソース

これは宿題の問題の答えを求めているのではありません。これはIMOを開いたままにすることができます。

— ガン-モニカの復活

それ自体が再生された場合は、おそらくこれです。

— ガン-モニカの復活

最初の質問についてはわかりません。2番目について、これらは私の考えです。

三目並べの状態空間について考えると、2つの相互に排他的なサブセットに分割できます。1つはエージェントが最初に再生したときに表示される状態で構成され、もう1つは2番目に再生中に表示される状態で構成されます。どちらかの側が常に最初に再生される場合、もう一方の側は、状態空間で2つのサブセットのうちの1つだけを経験します。それは、セカンドプレーヤーとして勝利しようとするポリシーを学習しようとします。

最初と2番目のプレイヤーとして両方のサイドをプレイするのは良いことです。すべての試合の前にコインを投げます-ヘッズの場合は左側を先にプレーし、そうでない場合は右側を開始します。このようにして、少なくともエージェントのポリシーがどちらの側から最初に開始するかには依存しないようにすることができます。

— カーシック・チアガラジャン
ソース