人工知能の Webサイトでは、ポリシー外学習とポリシー上学習を次のように定義しています。
「ポリシー外の学習者は、エージェントのアクションとは無関係に最適なポリシーの値を学習します。Qラーニングは、ポリシー外の学習者です。ポリシー上の学習者は、探索ステップを含め、エージェントによって実行されるポリシーの値を学習します」
これらは私には何の違いももたらさないようですので、これについてあなたの説明をお願いしたいと思います。どちらの定義も同じように見えます。私が実際に理解したことは、モデルなしの学習とモデルベースの学習であり、それらが問題の学習と関係があるかどうかはわかりません。
エージェントのアクションとは無関係に最適なポリシーを学習することはどのように可能ですか?エージェントがアクションを実行するときにポリシーは学習されませんか?