私は、製紙工場のパフォーマンスを予測するためにRF回帰を利用しようとしています。
私は、入力(木材パルプの速度と量など)と、マシンのパフォーマンス(生成された紙、マシンによって消費された電力)に関する分単位のデータを持ち、10分間の予測を求めています。パフォーマンス変数の先に。
12か月分のデータがあるので、トレーニングセット用に11か月、テスト用に最終月に分けました。
これまでに、パフォーマンス変数ごとに値が1〜10分遅れている10個の新しい機能を作成し、これらの機能と入力を使用して予測を行いました。テストセットのパフォーマンスは非常に良好です(システムはかなり予測可能です)が、アプローチに何か不足しているのではないかと心配しています。
たとえば、このペーパーでは、ランダムフォレストモデルの予測能力をテストする際のアプローチを次のように述べています。
シミュレーションは、新しい週のデータを繰り返し追加し、更新されたデータに基づいて新しいモデルをトレーニングし、翌週の大規模感染の数を予測することで続行されます。
これは、時系列の「後の」データをテストとして利用することとどう違うのですか?このアプローチとテストデータセットでRF回帰モデルを検証する必要がありますか?さらに、ランダムフォレスト回帰に対するこの種の「自己回帰」アプローチは時系列に有効ですか?将来10分の予測に興味がある場合、これだけ多くの遅延変数を作成する必要がありますか?