時系列予測のためのランダムフォレスト回帰

私は、製紙工場のパフォーマンスを予測するためにRF回帰を利用しようとしています。

私は、入力（木材パルプの速度と量など）と、マシンのパフォーマンス（生成された紙、マシンによって消費された電力）に関する分単位のデータを持ち、10分間の予測を求めています。パフォーマンス変数の先に。

12か月分のデータがあるので、トレーニングセット用に11か月、テスト用に最終月に分けました。

これまでに、パフォーマンス変数ごとに値が1〜10分遅れている10個の新しい機能を作成し、これらの機能と入力を使用して予測を行いました。テストセットのパフォーマンスは非常に良好です（システムはかなり予測可能です）が、アプローチに何か不足しているのではないかと心配しています。

たとえば、このペーパーでは、ランダムフォレストモデルの予測能力をテストする際のアプローチを次のように述べています。

シミュレーションは、新しい週のデータを繰り返し追加し、更新されたデータに基づいて新しいモデルをトレーニングし、翌週の大規模感染の数を予測することで続行されます。

これは、時系列の「後の」データをテストとして利用することとどう違うのですか？このアプローチとテストデータセットでRF回帰モデルを検証する必要がありますか？さらに、ランダムフォレスト回帰に対するこの種の「自己回帰」アプローチは時系列に有効ですか？将来10分の予測に興味がある場合、これだけ多くの遅延変数を作成する必要がありますか？

— KRS-fun
ソース

RFは一時的な考慮事項を考慮して設計されておらず、明示的に統合されていません。それでは、なぜこれらをこの分析に使用するのでしょうか。世の中には多くの時系列手法があります。一つを選ぶ。

— マイクハンター

@DJohnson論文のアプローチを真似ようとするつもりだと思った。RFを試してARIMAと比較する。これは時間の価値がなく、ARIMAを利用するだけの価値があるとお考えですか？

— KRS-fun

@DJohnson、自己回帰モデルのメカニズムは、断面回帰モデルのメカニズムとよく似ています。遅延フィーチャが構築されたら、断面設定のようにRFを使用してみませんか？それらを試すのは公平だと思います。しかし、時系列では他の方法がより一般的であり、OPもそれらを探索することで利益を得る可能性があることは正しいです。

— リチャードハーディ

私の見解では、RFはすべてが釘になるハンマーのようなものです。OPで説明されているデータの場合、私の最初の選択は、ARIMAではなく、パネルデータまたはプールモデルです。

— マイクハンター

私はたまたまこれに出会い、数日前に参照された論文を読みました。多変量時系列予測のために、ランダムフォレストとLSTMを比較しています。興味深いことに、LSTMはトレーニングデータに含まれる時間が少ない方が優れていますが、より多くの年のデータを追加すると、両方の方法の結果が真の結果に収束しています。これは主に、機能が時間的要素を克服するのに十分な情報を提供するためだと思います。とにかく面白かったです。また、非常に明白な季節の場合を除いて、ARIMAがうまく機能するのを見たことはありません。多変量ARIMAは...

— Hobbes

これは、時系列の「後の」データをテストとして利用することとどう違うのですか？

引用するアプローチは「ローリングオリジン」予測と呼ばれます。予測の起点は「ロールフォワード」され、トレーニングデータは新しく利用可能な情報で更新されます。より単純なアプローチは、「単一の発生源予測」で、単一の発生源を選択します。

ローリングオリジン予測の利点は、長期にわたる予測システムをシミュレートすることです。単一発生源予測では、システムが非常にうまく機能する（または非常に悪い）発生源を偶然に選択する可能性があり、システムのパフォーマンスについて誤った考えを与える可能性があります。

ローリングオリジン予測の1つの欠点は、データ要件が高いことです。少なくとも50の履歴観測で10ステップを予測する場合、全体で60のデータポイントでこの単一オリジンを実行できます。ただし、10個の重なり合うローリング原点を実行する場合は、70個のデータポイントが必要です。

他の不利な点は、もちろんそのより複雑さです。

言うまでもなく、ローリング起点予測で「後の」データを使用するのではなく、各反復で使用している起点の前のデータのみを使用してください。

このアプローチとテストデータセットでRF回帰モデルを検証する必要がありますか？

十分なデータがある場合、起点の影響を平均化することが望ましいので、ローリング起点評価は、単一起点評価よりも常に自信を呼び起こします。

さらに、ランダムフォレスト回帰に対するこの種の「自己回帰」アプローチは時系列に有効ですか？将来10分の予測に興味がある場合、これだけ多くの遅延変数を作成する必要がありますか？

はい、ローリング対単一オリジンの予測は、あらゆる予測演習に有効です。ランダムフォレストとARIMAのどちらを使用するかには依存しません。

遅れた変数が必要かどうかは、私たちがアドバイスすることはできません。他のインプットも提案する可能性がある主題の専門家と話をするのが最善の場合があります。遅れた入力がある場合とない場合のRFを試してください。また、ARIMAやETSなどの標準的なベンチマークや、驚くほど難しいと思われるより単純な方法と比較することもできます。

— ステファン・コラサ
ソース