ディープQラーニングのエピソードとエポックの違いは何ですか?


14

有名な論文「深層強化学習でアタリを弾く」(pdf)を理解しようとしています。エポックエピソードの違いはわかりません。アルゴリズムでは、外側のループはエピソードの上にありますが、図では、x軸に「エポック」というラベルが付けられています。強化学習のコンテキストでは、エポックの意味がわかりません。エポックはエピソードループの外側のループですか? 12

ここに画像の説明を入力してください

ここに画像の説明を入力してください


1
だから...どれだけのエピソードがエポックを作るのですか?
Lewen

回答:


10
  • 1つのエピソード = 1つの状態、アクション、および報酬のシーケンス。たとえば、ゲーム全体を1つのエピソードと見なすことができ、1人のプレーヤーが負け/勝ち/引き分けたときに最終状態に到達します。時には、1つのエピソードを複数のゲームとして定義することを好む場合があります(:「各エピソードは数十のゲームです。ゲームはどちらかのプレイヤーのスコアが21になるためです」)。
  • 1つのエポック =ニューラルネットワーク用語でのすべてのトレーニング例の1つのフォワードパスと1つのバックワードパス。

あなたが言及した論文では、それらは1つのエポックを特定の量の重みの更新であると定義しているだけなので、エポックの意味に関してより柔軟です。したがって、質問で述べたように、1つのエポックをエピソードループの外側のループとして表示できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.