たとえば、このホワイトペーパーのタイトルは、「エクスペリエンスリプレイを使用した効率的な俳優-評論家のサンプル」です。
サンプル効率とは何ですか?また、それを達成するために重要度サンプリングをどのように使用できますか?
たとえば、このホワイトペーパーのタイトルは、「エクスペリエンスリプレイを使用した効率的な俳優-評論家のサンプル」です。
サンプル効率とは何ですか?また、それを達成するために重要度サンプリングをどのように使用できますか?
回答:
アルゴリズムは、すべてのサンプルを最大限に活用できる場合、サンプル効率が高くなります。PONGを初めてプレイする方法を学ぼうとすることを想像してください。人間としては、ごく少数のサンプルに基づいてゲームをプレイする方法を習得するのに数秒かかります。これにより、非常に「サンプル効率」が向上します。最新のRLアルゴリズムは見なければなりません あなたの数千倍のデータがあるので、比較的非効率なサンプルです。
ポリシー外学習の場合、すべてのサンプルが、興味のある分布の一部ではないという点で、すべてのサンプルが役立つわけではありません。重要度サンプリングこれらのサンプルをフィルタリングする手法です。元々の用途は、1つの分布を理解する一方で、異なるが関連する分布からサンプルを取得することだけでした。RLでは、ポリシーに反して学習しようとすると、これが頻繁に発生します。つまり、サンプルは何らかの動作ポリシーによって作成されますが、ターゲットポリシーを学習したいということです。したがって、生成されたサンプルが、ターゲットポリシーが作成したサンプルにとってどれほど重要/類似しているかを測定する必要があります。したがって、これらの「重要な」サンプルに有利な加重分布からサンプリングしています。ただし、重要なことを特徴付ける方法は多数あり、それらの有効性はアプリケーションによって異なる場合があります。
重要度サンプリングのこのポリシー外スタイルに対する最も一般的なアプローチは、ターゲットポリシーによってサンプルが生成される可能性の割合を見つけることです。TangとAbbeelによる論文「重要度サンプリングと尤度比ポリシーグラジエントとの関係」(2010年)は、このトピックをカバーしています。
サンプル効率とは、一定レベルのパフォーマンスを達成するために、トレーニング中にエージェント/アルゴリズムが環境で生成する必要がある経験の量を示します(例:実行するアクションの数、結果の状態の数+観察する報酬)。直感的に、アルゴリズムは、ポリシーを生成し、迅速に改善するためにたまたますべての経験を有効に活用できれば、サンプル効率が良いと言えます。アルゴリズムは、多くの経験サンプルから有用な情報を学習できず、急速に改善されない場合、サンプル効率が低下します。
Jadenの回答における重要度サンプリングの説明は、ほとんど正しいようです。
あなたの質問の論文では、重要度サンプリングは、1)マルチステップの軌跡から学習し、2)リプレイバッファーを経験するという正しい組み合わせを可能にする要素の1つです。以前は、これら2つのことを組み合わせるのは簡単ではありませんでした(重要度サンプリングなしのマルチステップリターンはオンポリシー学習でのみ正しいため、リプレイバッファーの古いサンプルは古いポリシーによって生成されたため、それらからの学習はオフポリシーです) )。ただし、これらの両方が個別にサンプルの効率を改善します。これは、それらを何らかの方法で組み合わせることができれば、サンプルの効率にとっても有益であることを意味します。
..finding a ratio of how likely a sample is to be generated by the target policy
行動ポリシーのみを知っている場合、これをどのように決定するのでしょうか?ターゲットポリシーは、見つけなければならないものではありませんか?