優先再生(5ページ)の重要度サンプリングの重み(IS)の目的を理解できません。
トランジションは、その「コスト」が大きいほど、経験の再現からサンプリングされる可能性が高くなります。私が理解しているのは、「IS」は、十分な長さのトレーニングを終えた後、優先再生の使用をスムーズに放棄するのに役立つということです。 しかし、代わりに何を使用しますか、均一サンプリング?
そのような係数の各成分が結果にどのように影響しているのか、私には理解できないと思います。誰かがそれを言葉で説明できますか?
次に、遷移から取得しようとする勾配を弱めるために使用されます。
どこ:
- は「IS」
- NはExperience Replayバッファーのサイズです
- P(i)は、「そのコストの大きさ」に応じて、遷移を選択する機会です。
- は0から始まり、新しいエポックごとに1にドラッグされます。
これらのパラメーターに対する私の理解も正しいですか?
編集回答が受け入れられた後、私は追加のソース、初心者に役立つかもしれないビデオを見つけました-MC Simmulations:3.5重要度サンプリング
0.1 0.2 0.3 0.4
つまり、最初のエントリには10%が選択され、2番目には20%が選択されます。これらを反転すると、次のようになります。
10 5 3.333 2.5
2.5 1.25 0.8325 0.625 ...which would add up to '5.21'