トレイン/テストスプリットの代わりにAICまたはBICをどのように使用できますか？

最近、いくつかの「非公式」ソースに出くわしました。これは、状況によっては、AICまたはBICを使用して時系列モデルをトレーニングする場合、データをテストに分割してトレーニングする必要がないことを示しています。トレーニング用のデータ。（出典には、CVに関するRob Hyndmanのブログ投稿に関するディスカッション、スタンフォード大学からのこのプレゼンテーション、またはこのテキストのセクション4が含まれます）。

特に、データセットが小さすぎてトレインとテストを分割できない場合に、AICまたはBICを使用できることを示しているようです。

たとえば、Rob Hyndmanのコメント：「AIC / BICを使用する方がテストセットやCVを使用するよりもはるかに効率的であり、そうでない場合に十分なデータがない短い時系列では不可欠になります。」

しかし、これについて詳細に説明しているテキストや論文を見つけることはできません。

特に私を困惑させることの1つは、AICとBICが相互検証に漸近的になる傾向があるということです。つまり、可能であれば、それらは大きなデータセットのCVを置き換えることになります。

誰かが私にこのアイデアの正式な議論（本の章、論文、チュートリアル）を指摘できますか？

— スカンダH.
ソース

この本の 5.5章では、これらのモデル選択基準の多くがどのように発生するかについて説明しています。赤池のARモデルのFPE基準から始め、次にAIC、AICc、BICについて説明します。彼らはかなり徹底的に派生を歩きます。

$\{X_t\}$ $\{Y_t\}$ これは、この新しいデータで推定モデルを使用することから生じます。主なアイデアは、a）すべてのデータに関して期待値を取得し、2）いくつかの漸近的な結果を使用して、期待値の一部の式を取得することです。（1）からの量は期待される全体的なパフォーマンスを提供しますが、（2）は実際よりも多くのデータがあることを前提としています。私は専門家ではありませんが、交差検証アプローチはこれらのパフォーマンス測定も対象にしていると思います。しかし、サンプル外のデータを仮想的に考慮する代わりに、トレーニングデータから分割された実際のデータを使用します。

$\{\hat{\phi}_i\}_i$ $\{Y_t\}$

\begin{aligned} E (Y_{n + 1} - {\hat{ϕ}}_{1} Y_{n} - \dots - {\hat{ϕ}}_{p} Y_{n + 1 - p})^{2} \\ = E (Y_{n + 1} - ϕ_{1} Y_{n} - \dots - ϕ_{p} Y_{n + 1 - p} - \\ ({\hat{ϕ}}_{1} - ϕ_{1}) Y_{n} - \dots - ({\hat{ϕ}}_{p} - ϕ_{p}) Y_{n + 1 - p})^{2} \\ = E (Z_{t} + ({\hat{ϕ}}_{1} - ϕ_{1}) Y_{n} - \dots - ({\hat{ϕ}}_{p} - ϕ_{p}) Y_{n + 1 - p})^{2} \\ = σ^{2} + E [E [(({\hat{ϕ}}_{1} - ϕ_{1}) Y_{n} - \dots - ({\hat{ϕ}}_{p} - ϕ_{p}) Y_{n + 1 - p})^{2} | {X_{t}}]] \\ = σ^{2} + E [\sum_{i = 1}^{p} \sum_{j = 1}^{p} ({\hat{ϕ}}_{i} - ϕ_{i}) ({\hat{ϕ}}_{j} - ϕ_{j}) E [Y_{n + 1 - i} Y_{n + 1 - j} | {X_{t}}]] \\ = σ^{2} + E [({\hat{ϕ}}_{p} - ϕ_{p})^{'} Γ_{p} ({\hat{ϕ}}_{p} - ϕ_{p})] \\ (typo in book: n^{- 1 / 2} should be n^{1 / 2}) & \approx σ^{2} (1 + \frac{p}{n}) \\ (n {\hat{σ}}^{2} / σ^{2} approx. χ_{n - p}^{2}) & \approx \frac{n {\hat{σ}}^{2}}{n - p} (1 + \frac{p}{n}) = {\hat{σ}}^{2} \frac{n + p}{n - p} . \end{aligned}

$\begin{align*} & E(Y_{n+1} -\hat{\phi}_1Y_n -\cdots - \hat{\phi}_p Y_{n+1-p} )^2 \\ &= E(Y_{n+1} -\phi_1Y_n -\cdots - \phi_p Y_{n+1-p} - \\ & \hspace{30mm} (\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 \\ &= E( Z_t + (\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 \\ &= \sigma^2 + E[E[((\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 | \{X_t\} ]] \\ &= \sigma^2 + E\left[ \sum_{i=1}^p \sum_{j=1}^p (\hat{\phi}_i - \phi_i)(\hat{\phi}_j - \phi_j)E\left[ Y_{n+1-i}Y_{n+1-j} |\{X_t\} \right] \right] \\ &= \sigma^2 + E[({\hat{\phi}}_p -{\phi}_p )' \Gamma_p ({\hat{\phi}}_p -{\phi}_p )] \\ &\approx \sigma^2 ( 1 + \frac{p}{n}) \tag{typo in book: $n^{-1/2}$ should be $n^{1/2}$} \\ &\approx \frac{n \hat{\sigma}^2}{n-p} ( 1 + \frac{p}{n}) = \hat{\sigma}^2 \frac{n+p}{n-p} \tag{$n \hat{\sigma}^2/\sigma^2$ approx. $\chi^2_{n-p}$ }. \\ \end{align*}$

これらの基準のパフォーマンスを相互検証手法と経験的に比較した、頭の上の論文は知りません。ただし、この本には、FPE、AIC、AICc、BICの比較方法に関する多くのリソースが記載されています。

— テイラー
ソース