タグ付けされた質問 「deep-rl」

4
Q-Learningがテスト中にepsilon-greedyを使用するのはなぜですか?
Deep MindのAtariビデオゲームのDeep Q-Learningに関する論文(こちら)では、トレーニング中の探索にイプシロングリディ法を使用しています。これは、トレーニングでアクションが選択されると、最高のq値を持つアクションとして選択されるか、ランダムアクションとして選択されることを意味します。これら2つの選択はランダムで、イプシロンの値に基づき、イプシロンはトレーニング中にアニールされ、最初は多くのランダムなアクションが実行されます(探索)が、トレーニングが進むにつれて、最大q値を持つアクションが多く実行されます(搾取)。 次に、テスト中に、彼らはこのイプシロン貪欲法も使用しますが、イプシロンは非常に低い値であるため、探査よりも搾取に強いバイアスがあり、ランダムアクションよりも最も高いq値を持つアクションを選択します。ただし、ランダムアクションが選択されることもあります(時間の5%)。 私の質問は次のとおりです。トレーニングが既に行われているのに、なぜこの時点で調査が必要なのですか システムが最適なポリシーを学習した場合、最高のq値を持つアクションとして常にアクションを選択できないのはなぜですか?トレーニングでのみ調査を行い、最適なポリシーを学習したら、エージェントは最適なアクションを繰り返し選択できますか? ありがとう!
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.