反復強化学習とは


20

私は最近、「繰り返し強化学習」という言葉に出会いました。「リカレントニューラルネットワーク」とは何か、「強化学習」とは何かを理解していますが、「リカレント強化学習」とは何かについてはあまり情報が見つかりませんでした。

「繰り返し強化学習」とは何か、Qラーニングアルゴリズムのような「繰り返し強化学習」と通常の「強化学習」の違いを教えてください。

回答:


15

「反復強化学習」とは何ですか?

再帰強化学習(RRL)は、ニューラルネットワークトレーディングシステムのトレーニングのために1996年に初めて導入されました。「再帰」とは、以前の出力が入力の一部としてモデルに入力されることを意味します。すぐにFX市場での取引に拡張されました。

RRLの技術は、金融取引システムを構築するための成功した機械学習技術であることが判明しています。

「繰り返し強化学習」と通常の「強化学習」(Q-Learningアルゴリズムなど)の違いは何ですか?

RRLの明確からアプローチが異なり、動的プログラミングおよびアルゴリズム補強などTD学習Q学習推定しようとすると、値関数を制御問題のために。

RRLのフレームワークは、シンプルかつエレガントな問題表現を作成することができます回避次元のベルマンの呪い効率と申し出魅力的な利点を:

RRLは、Qラーニングの離散化メソッドに頼ることなく、自然に実際の価値のあるアクション(ポートフォリオウェイト)を生成します。

ノイズの多いデータセットにさらされた場合、RRLのパフォーマンスはQラーニングに比べて安定しています。Q-learningアルゴリズムは、動的最適化の再帰的性質により、値関数の選択に対して(おそらく)より敏感です。一方、RRLアルゴリズムは、目的関数の選択と計算時間の節約においてより柔軟です。

RRLを使用すると、「利益」(取引コスト後のリターン)、「富」、富の効用関数、または「シャープ比」などのリスク調整されたパフォーマンス比などのパフォーマンス関数最大化することにより、トレーディングシステムを最適化できます。U()

ここに、RRLアルゴリズムのMatlab実装があります。


参照資料

取引のための強化学習

取引システムとポートフォリオの強化学習

繰り返し強化学習によるFX取引

リカレント強化学習(RRL)による株式取引

Qラーニングと反復強化学習を使用したアルゴリズム取引

自動FXトレーディングのためのアルゴリズムの探索–ハイブリッドモデルの構築


@AntonDanilovあなたがこれを知っているかどうかわかりません。このアイデアを思いついた人(あなたの最初の参考文献、Jムーディー)は、このアルゴリズムを使用してファンドを運営していました-そして彼のパフォーマンスは壮観とはほど遠いものでした。
horaceT

だから、良いが、それはchangemy答えをどうするかを知っているだけに
アントン・ダニロフ

2

(ディープ)リカレントRLの違いは、エージェントの観察結果を出力アクションにマッピングする関数がリカレントニューラルネットワークであることです。

リカレントニューラルネットワークは、各タイムステップに対して同じ方法で、各観測値を順番に処理するニューラルネットワークの一種です。

オリジナルペーパー:部分的に観測可能なMDPのディープリカレントQラーニング

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.