Dyna-Qでの計画は、経験の再現の形式ですか?


8

ではRLのリチャード・サットンの本(第2版)、彼は計画と学習を組み合わせたダイナ-Qアルゴリズムを提示します。

アルゴリズムの計画部分で、Dynaエージェントはn個の状態とアクションのペアをランダムにサンプリングします(s,a) エージェントによって以前に認識され、このペアを環境のモデルにフィードし、サンプリングされた次の状態を取得します sそして、報酬。次に、このセットを使用して、通常のQ学習更新を実行します。r(s,a,r,s)

確定的環境では、与えられた状態とアクションのペアの報酬と次の状態は常に同じです。Dyna-Qに関する彼の章では、サットンはこのプロセスを一種の体験リプレイであるとは言及せず、本の後半で後者の概念を紹介するだけです。ただし、これら2つのプロセスの違い(ある場合)は実際にはわかりません。statrt+1st+1

確定的な環境では、Tabular Dyna-Qでの計画は経験の再現の 1つの形式であると言って間違いありませんか?

サットンの本、セクション8.2の表形式Dyna-Q

回答:


2

確定的な環境では、Tabular Dyna-Qでの計画は経験の再現の1つの形であると言って間違いありませんか?

「Experience Replay」と「Dyna-Q」という用語が特定の実装を指すものとしてよく理解されているために、これを言うのは完全に正しいとは言えません。あなたが説明する特定の状況(確定的環境における表形式の RL )では、最終的に同様のことを行うことは事実です。ただし、異なる実装を使用してこれらの同様のことを行うため、実際には微妙な違いが生じる可能性があります。たとえば、2つのアイデアはおそらく異なるメモリ要件を持っています。このため、このような状況ではお互いが非常に接近していても、1つの用語が他の用語を意味するときに使用することは決して正しいとは思いません。

以下は、Long-Ji Linの論文である「ニューラルネットワークを使用したロボットの強化学習」(1993)の結論からの引用です。これは、エクスペリエンスリプレイの最初のソースの1つです。ドキュメント全体を通して、エクスペリエンスリプレイとDynaは一貫して異なるアイデアとして扱われますが、実際には多くの類似点があります。

この論文は、体験リプレイと呼ばれる技術を提案しました。この手法は実際にはモデルを利用しますが、モデルは単に過去の経験を集めたものであるため、モデルを構築するという難しい問題はありません。

したがって、重要な違いは、実際に彼らが達成することではなく、それをどのように行うかです。説明した設定(表形式ではなく関数近似、および/または決定論的ではなく非決定論的)を超えると、より明白な違いが見られます。


0

一部の論文では、2つの概念は同じと見なされています。たとえば、クルーガー、ポール、トーマスグリフィス、スチュアートJ.ラッセルなどです。「モデルベースの疑似報酬によるモデルフリー強化学習の形成」(2017)。

ただし、更新の方法に違いがある場合があります。Dynaは、値関数と予測誤差を直接使用します。したがって、単一のシミュレートされたステップ更新を使用できます。

リプレイの使用は、一連のアクションに対する累積報酬を考慮し、更新で値関数または予測エラーを使用しないモンテカルロ更新を使用することに似ています。

Z. FeldmanおよびC. Domshlak、「Monte-Carlo tree search:To MC or DP?」、ECAI 2014:21st European Conference on Artificial Intelligence、2014、vol。263、p。321

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.