時系列相互検証を使用した予測誤差の計算


13

時系列の予測モデルがあり、そのサンプル外の予測エラーを計算したい。現時点で私がフォローしている戦略は、Rob Hyndmanのブログ(ページの下部近く)で次のように提案されています(時系列およびサイズトレーニングセットを想定)y1ynk

  1. モデルをデータに合わせ、次の観測の予測とします。、Y T + Kytyt+k1y^t+k
  2. として予測誤差を計算します。et=y^t+kyt+k
  3. t = 1、\ dots、nkについて繰り返しますt=1nk
  4. 平均平方誤差をMSE=1nkt=1nket2

私の質問は、トレーニングセットが重複しているため、相関についてどれだけ心配する必要があるかです。特に、次の値だけでなく、次のm値も予測したいので、予測y^t+ky^t+k+m1およびエラーet1etm、および予測エラーの用語構造を構築したい。

トレーニングセットのウィンドウを毎回1ずつ進めることができますか、それともmずつ進めmますか?私が予測しているシリーズに有意な自己相関がある場合、これらの質問に対する答えはどのように変化しますか(おそらく記憶の長いプロセスです。つまり、自己相関関数は指数関数ではなくべき法則として減衰します)。

ここでの説明、またはMSE(またはその他のエラー測定値)の信頼区間に関する理論的な結果を見つけることができる場所へのリンクをいただければ幸いです。

回答:


11

相互検証ではなく、最大エントロピーブートストラップを使用してエラーを推定することに興味があるようです。これにより、データの複数のブートストラップを生成できます。その後、必要な数のトレイン/テストセットに分割して、予測の信頼区間を計算できます。

Rob Hyndmanがブログ時系列相互検証の詳細な議論を行っており、「ローリング」と予測のいくつかの異なる方法を実装していますが、主に実装に焦点を当てています。ブログにもいくつかの実装があります。たぶん、最も単純なアプローチは、すべての時間ウィンドウにわたってエラーを平均化することであり、したがって、エラーの潜在的な相関を無視します。

私が知る限り、時系列データのクロスバリデーションの理論的状態は、一般的なクロスバリデーションの理論的状態にやや遅れています。直観的には、地平線が増加するにつれてエラーが増加すると予想されます。これは、さまざまな予測期間にわたって相関エラーを予想する必要があることを示唆しています。なぜこれが心配なのですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.