14 有名な論文「深層強化学習でアタリを弾く」(pdf)を理解しようとしています。エポックとエピソードの違いはわかりません。アルゴリズムでは、外側のループはエピソードの上にありますが、図では、x軸に「エポック」というラベルが付けられています。強化学習のコンテキストでは、エポックの意味がわかりません。エポックはエピソードループの外側のループですか? 1122 neural-networks terminology reinforcement-learning q-learning — 広告 ソース 1 だから...どれだけのエピソードがエポックを作るのですか? — Lewen
10 1つのエピソード = 1つの状態、アクション、および報酬のシーケンス。たとえば、ゲーム全体を1つのエピソードと見なすことができ、1人のプレーヤーが負け/勝ち/引き分けたときに最終状態に到達します。時には、1つのエピソードを複数のゲームとして定義することを好む場合があります(例:「各エピソードは数十のゲームです。ゲームはどちらかのプレイヤーのスコアが21になるためです」)。 1つのエポック =ニューラルネットワーク用語でのすべてのトレーニング例の1つのフォワードパスと1つのバックワードパス。 あなたが言及した論文では、それらは1つのエポックを特定の量の重みの更新であると定義しているだけなので、エポックの意味に関してより柔軟です。したがって、質問で述べたように、1つのエポックをエピソードループの外側のループとして表示できます。 — フランク・ダーノンコート ソース