強化学習は時系列予測に適用できますか？

はい。ただし、予測とシステムの継続的な動作との間に大きなフィードバックがない限り、一般的には、タスクに適したツールではありません。

RL予測または制御アルゴリズムを使用する価値がある強化学習（RL）問題を構築するには、いくつかのコンポーネントを特定する必要があります。

環境の多くの一つであることの状態シーケンスに観察/測定することができます。
エージェント現在観察できる状態にして取る行動と同じ順序でを。
シーケンスの状態の変化は、現在の状態と実行されたアクションのいくつかの組み合わせに依存するはずであり、確率論的である場合もあります。
RLエージェントが観察または測定できる報酬信号があるはずです。報酬の価値は、国家の進化と同じ要素に依存する必要がありますが、異なる方法でそれらに依存することができます。

時系列予測の一般的なケースは、予測をアクションとして扱い、状態の進化が現在の状態（およびランダム性）と状態とアクションに基づく報酬のみに依存するようにすることで、これに適合させることができます。これによりRLを適用できますが、因果関係は環境から予測モデルへの一方向のみに流れます。そのため、たとえば報酬に対してできる最善のことは、予測の正確性に関するいくつかのメトリックを使用することです。良いまたは悪い予測の結果は、元の環境に影響を与えません。基本的に、シーケンスのいくつかの予測モデル（ニューラルネットワークなど）をRLレイヤーでラップすることになります。これは、教師あり学習問題の基本的なデータセット処理で簡単に置き換えることができます。

一連の予測問題をRL問題に有意義に拡張できる 1つの方法は、予測に基づいて下された決定、およびそれらの決定によって影響を受けるシステムの状態を含めるように環境の範囲を拡大することです。たとえば、株価を予測する場合は、ポートフォリオとファンドを州に含めます。同様に、アクションは予測ではなく、売買コマンドになります。これは価格予測コンポーネントを改善しません（そして、より適切なツール（LSTMなど）を使用して、それを個別の問題として扱う方がよいでしょう）が、それはRL問題として全体的に問題を組み立てます。

— ニール・スレーター
ソース