回答:
「反復強化学習」とは何ですか?
再帰強化学習(RRL)は、ニューラルネットワークトレーディングシステムのトレーニングのために1996年に初めて導入されました。「再帰」とは、以前の出力が入力の一部としてモデルに入力されることを意味します。すぐにFX市場での取引に拡張されました。
RRLの技術は、金融取引システムを構築するための成功した機械学習技術であることが判明しています。
「繰り返し強化学習」と通常の「強化学習」(Q-Learningアルゴリズムなど)の違いは何ですか?
RRLの明確からアプローチが異なり、動的プログラミングおよびアルゴリズム補強などTD学習とQ学習推定しようとすると、値関数を制御問題のために。
RRLのフレームワークは、シンプルかつエレガントな問題表現を作成することができます回避次元のベルマンの呪い効率と申し出魅力的な利点を:
RRLは、Qラーニングの離散化メソッドに頼ることなく、自然に実際の価値のあるアクション(ポートフォリオウェイト)を生成します。
ノイズの多いデータセットにさらされた場合、RRLのパフォーマンスはQラーニングに比べて安定しています。Q-learningアルゴリズムは、動的最適化の再帰的性質により、値関数の選択に対して(おそらく)より敏感です。一方、RRLアルゴリズムは、目的関数の選択と計算時間の節約においてより柔軟です。
RRLを使用すると、「利益」(取引コスト後のリターン)、「富」、富の効用関数、または「シャープ比」などのリスク調整されたパフォーマンス比などのパフォーマンス関数最大化することにより、トレーディングシステムを最適化できます。
ここに、RRLアルゴリズムのMatlab実装があります。
(ディープ)リカレントRLの違いは、エージェントの観察結果を出力アクションにマッピングする関数がリカレントニューラルネットワークであることです。
リカレントニューラルネットワークは、各タイムステップに対して同じ方法で、各観測値を順番に処理するニューラルネットワークの一種です。
オリジナルペーパー:部分的に観測可能なMDPのディープリカレントQラーニング