(1)サブサンプリングが非定常性の問題をどのように解決するか
トレーニング中に他のエージェントが実行するさまざまなサブポリシーをサンプリングするアイデアは、常に最新の1つの「バージョン」の対戦相手に対してのみトレーニングを行うのではなく、競合するエージェントの動作をより多様にすることです(これにより、それらのエージェントに対して「過剰適合」)。対戦相手の行動に多様性がある場合、エージェントは、すべての対戦相手を処理できるポリシーを学習しようとするという意味で、強固なポリシーを学習することを余儀なくされます。その多様性がないと、常に最新バージョンの対戦相手のみを選択する場合、エージェントは代わりに、最新バージョンの対戦相手に強いポリシーのみを学習するように奨励されます。
たとえば、じゃんけんのゲームを考えてみましょう。しましょうP1 そして P2同時に学習している2つのエージェントを示します。(サンプリングを通じてより多様なトレーニングパートナーを持つのではなく)お互いに対してトレーニングするだけであると仮定します。と思いますP1 ランダムに初期化され、ほとんどがロックを演奏するだけで、 P2 ランダムに初期化され、ほとんどがペーパーを再生します。
P2 最初はほとんどのゲームに勝つだろう、そして P1その後、はさみを非常に頻繁にプレイする方法を学びます。一度P1 それを学んだ、 P2非常に頻繁にロックを演奏することを学び始めます。それが完了すると、P1非常に頻繁に紙を弾くことを学び始めます。両方のエージェントはそのような円を描き続けるだけで、常に他のプレイヤーの最新の行動に対抗することだけを学びます。
代わりに、学習した複数のポリシーの集合からサンプリングすることにより、より多様なトレーニングパートナーを導入すると、アクションをランダムに均一に選択する最適な戦略に収束する可能性が高くなります。これは、さまざまなポリシーの組み合わせに対してうまく機能する可能性が高い唯一の戦略です。
(2)なぜ個々のエージェントに複数の可能な(サブ)ポリシーがあるのですか?各エージェントに単一の最適なポリシーがあるべきではありませんか?
最終的には、すべてのエージェントに対して単一の*最適なポリシーに収束したいことがよくあります。しかし、通常はまだそれがありません...そもそも強化学習を最初から行っている理由です!最適な(または単に良い)ポリシーがどのように見えるかはわかりません。最初にそれを学ぶ必要があります。その学習プロセス中に、必要に応じて(上記の前の質問に対する私の回答の推論に基づいて行います)、単一のポリシーを学習するのではなく、さまざまなポリシーの組み合わせを簡単に学習できます。これは、たとえば、収集したエクスペリエンスの異なるサブセットで各サブポリシーをトレーニングするだけで実行できます。