時系列モデルの選択：AICとサンプル外のSSEおよびそれらの同等性

AICは、時系列予測のモデルを比較する基準として頻繁に推奨されます。たとえば、動的回帰モデルのコンテキストでこれを参照してください。

最終モデルのAICを計算でき、この値を使用して最適な予測子を決定できます。つまり、考慮すべき予測子のすべてのサブセットと、AICc値が最も低いモデルを選択するために、この手順を繰り返す必要があります。

サンプル外のパフォーマンスに基づいてモデルを比較してみませんか？（たとえば、サンプル外予測でSSEが最も低いモデルを選択します）。私は時系列予測に関するいくつかの教科書とウェブサイトを読んでいて、この議論を見つけていません。私が得た最も近いものは、AICの事実と誤謬に関するこのブログエントリでした。

AICは実際には「サンプル内」の指標ではありません。はい、トレーニングデータを使用して計算されます。しかし、漸近的に、AICを最小化することは、断面データの1つを残した交差検証MSEを最小化することと同等であり、時系列モデルのサンプル外の1ステップ予測MSEを最小化することと同等です。この特性により、予測用のモデルの選択に使用するための魅力的な基準になります。

私が働いていた例（ここではプロットを投稿できませんでした。このサイトではもっと評判が必要です）で両方のアプローチを試しましたが、ほとんどの場合、AICとサンプル外のSSEは同じ結果になりません結果。私が使用した手順は次のとおりです。

トレーニングサンプルとテストサンプルのデータを分割しました（任意の時点で、以下の質問について）
トレーニングサンプルを使用して、競合するモデル（外部リグレッサを含むARIMA、ARIMAパラメータとリグレッサを変更）を推定しました（最初の230期間。すべてのモデルの観測数は同じなので、AICは同等です）。
次に、テストサンプルと同じ期間（期間231〜260）のシリーズを予測しました。
$SSE=\sum_{t=231}^{260}(\widehat{y_t}-y_t)^2$ $y_t$ $\widehat{y_t}$
AIC（トレーニングデータを使用して計算）で示されたモデルを、サンプル外のSSEが最も低いモデルと比較しました。ほとんどの場合、選択されたモデルは異なります（少なくとも視覚的には、SSEによって選択されたモデルはパフォーマンスが向上します）。

誰かがこの背後で何が起こっているのか説明してくれるなら、とても感謝しています。私は明らかにこれの専門家ではありません。ちょっと教えようとしているだけなので、読んでいる教科書で大切なことを見落としてしまったら失礼します。

最後に、トレーニングおよびテストサンプルのデータを時系列に分割することに関する質問。断面データに対して同じ手順を使用することとは根本的に異なるものがあるように私には思えます。断面データの場合、データセット全体から2つのランダムサンプルを取得できます。時系列では、これはあまり意味がありません。したがって、シリーズをトレーニングサンプルとテストサンプルに分割するには、任意のポイントを取る必要があります。問題は、通常、最良のモデルは任意のポイントごとに異なるということです。おそらくそれが、このアプローチが頻繁に使用されていないように思われる理由です。これがモデル選択にAICが推奨される理由ですか？（「漸近的に、AICを最小化することは...時系列モデルのサンプル外の1ステップ予測MSEを最小化することと同等です」。）

— elikesプログラミング
ソース

サンプル外のパフォーマンスに基づいてモデルを比較してみませんか？

もちろん、それは可能です。AICの利点は、計算が高速でコーディングが少ないことだと思います（AICはモデル診断の一部として自動的に報告されることが多いですが、時系列の相互検証は、お気に入りのソフトウェアではすぐに利用できない場合があります）。

私は両方のアプローチを試しましたが、ほとんどの場合、AICとサンプル外のSSEは同じ結果をもたらしません。

相互検証を適切に実装していないようです。最初に、データを複数回に分割することになっている間、データを1回だけ分割します。次に、1つの固定期間を予測する複数の試行ではなく、複数の異なる期間を予測する1つの試行に基づいて予測パフォーマンスを評価しました。おそらくそのため、AICと相互検証の間に矛盾が生じたのでしょう。

$t$ $t+m$ $m$ $t$ $T-m-1$ $T$

HyndmanとAthanasopoulosの「予測：原則と実践」、セクション2.5（下にスクロール）、およびBergmeirらも参照してください。「時系列予測を評価するための相互検証の有効性に関するメモ」（2015年、ワーキングペーパー）。

少なくとも視覚的には、SSEによって選択された[モデル]の方がパフォーマンスが良い

モデルの残差に想定された分布がまったくなかったか、モデルに何らかの方法でAICを無効にする他のエラーがあった可能性があります。これが、モデルの選択においてサンプル外の予測精度がAICよりも優先される理由の1つです。

— リチャードハーディ
ソース

ありがとう、私はあなたが提案するように相互検証を行い、見つけたものを投稿します。多くの感謝

— elikesprogramming