私はサットンとバルトの本、強化学習:はじめにを始めたばかりで、演習1.1:自己再生への答えをどう考えるかについて興味があります。ランダムな対戦相手と対戦する代わりに、上記の強化学習アルゴリズムがそれ自体と対戦するとします。この場合、どうなると思いますか?別の遊び方を学びますか?
以下の関連するサブ質問について考えることもできますが、それらは私の考えをより明確にしていません。
- 学習のランダムな部分を削除すると、状況が変わりますか?つまり、常に最適なポリシーに従い、探索しませんか?
- それは最初の発動者が誰であるかに依存しますか?
8
これは宿題の問題の答えを求めているのではありません。これはIMOを開いたままにすることができます。
—
ガン-モニカの復活