ARMAを使用した非定常プロセスのモデリングの結果は？

非定常時系列のモデリングにはARIMAを使用する必要があることを理解しています。また、ARMAは定常時系列にのみ使用されるべきだと私が読んだことすべてがあります。

私が理解しようとしているのは、モデルを誤分類し、d = 0非定常の時系列を仮定したときに実際に何が起こるかです。例えば：

controlData <- arima.sim(list(order = c(1,1,1), ar = .5, ma = .5), n = 44)

制御データは次のようになります。

 [1]   0.0000000   0.1240838  -1.4544087  -3.1943094  -5.6205257
 [6]  -8.5636126 -10.1573548  -9.2822666 -10.0174493 -11.0105225
[11] -11.4726127 -13.8827001 -16.6040541 -19.1966633 -22.0543414
[16] -24.8542959 -25.2883155 -23.6519271 -21.8270981 -21.4351267
[21] -22.6155812 -21.9189036 -20.2064343 -18.2516852 -15.5822178
[26] -13.2248230 -13.4220158 -13.8823855 -14.6122867 -16.4143756
[31] -16.8726071 -15.8499558 -14.0805114 -11.4016515  -9.3330560
[36]  -7.5676563  -6.3691600  -6.8471371  -7.5982880  -8.9692152
[41] -10.6733419 -11.6865440 -12.2503202 -13.5314306 -13.4654890

データが知らなかったと仮定して、私はARIMA(1,1,1)見るかもしれませんpacf(controlData)。

pacf（controlData）

次に、Dickey-Fullerを使用して、データが非定常かどうかを確認します。

require('tseries')
adf.test(controlData)

# Augmented Dickey-Fuller Test
#
# data:  controlData
# Dickey-Fuller = -2.4133, Lag order = 3, p-value = 0.4099
# alternative hypothesis: stationary

adf.test(controlData, k = 1)

# Augmented Dickey-Fuller Test
#
#data:  controlData
# Dickey-Fuller = -3.1469, Lag order = 1, p-value = 0.1188
# alternative hypothesis: stationary

したがって、データがARIMA（2,0、*）であると仮定する場合があります。次にauto.arima(controlData)、最適なものを取得するために使用しますか。

require('forecast')
naiveFit <- auto.arima(controlData)
naiveFit
# Series: controlData 
# ARIMA(2,0,1) with non-zero mean 
# 
# Coefficients:
#          ar1      ar2     ma1  intercept
#      1.4985  -0.5637  0.6427   -11.8690
# s.e.  0.1508   0.1546  0.1912     3.2647
#
# sigma^2 estimated as 0.8936:  log likelihood=-64.01
# AIC=138.02   AICc=139.56   BIC=147.05

そのため、過去および将来のデータがARIMA（1,1,1）であっても、ARIMA（2,0,1）として分類したいと思うかもしれません。tsdata(auto.arima(controlData))よさそうだ。

知識のあるモデラーが見つけることは次のとおりです。

informedFit <- arima(controlData, order = c(1,1,1))
# informedFit
# Series: controlData 
# ARIMA(1,1,1)                    
#
# Coefficients:
#          ar1     ma1
#       0.4936  0.6859
# s.e.  0.1564  0.1764
#
# sigma^2 estimated as 0.9571:  log likelihood=-62.22
# AIC=130.44   AICc=131.04   BIC=135.79

1）なぜこれらの情報基準は、選択したモデルよりも優れているのauto.arima(controlData)ですか？

次に、実際のデータと2つのモデルをグラフィカルに比較します。

plot(controlData)
lines(fitted(naiveFit), col = "red")
lines(fitted(informedFit), col = "blue")

tsPlots

2）悪魔の擁護者を演じ、ARIMA（2、0、1）をモデルとして使用することで、どのような結果を支払うのでしょうか？このエラーのリスクは何ですか？

3）私は主に、複数期間の前方予測の意味について心配しています。私は彼らがあまり正確ではないと思いますか？証拠を探しているだけです。

4）モデル選択の代替方法を提案しますか？「知識のない」モデラーとしての推論に問題はありますか？

私は、この種の誤分類のその他の結果について、本当に興味があります。いくつかのソースを探していましたが、何も見つかりませんでした。私が見つけることができたすべての文献は、この主題に触れるだけで、代わりにARMAを実行する前にデータが静止しているべきであると述べ、それが非定常の場合、d回異なる必要があります。

ありがとう！

r time-series arima stationarity

— クラーク・ヘンリー
ソース

私の印象では、これは断面回帰における「直交誤差」の仮定に似ています（つまり、標準誤差にバイアスをかけますが、係数にはバイアスをかけません）が、実際の答えを聞くことに本当に興味があります。

— シャドウトーカー

回答:

私の印象では、この質問には一意で完全に一般的な答えがないため、最も単純なケースのみを少し非公式な方法で検討します。

真のデータ生成メカニズムがと仮定し、は通常のゼロ平均ホワイトノイズ成分、です。上記も意味します

\begin{matrix} （1） & y_{t} = y_{t - 1} + {あなたは}_{t} 、 t = 1 、 。 。 。 、 T 、 y_{0} = 0 \end{matrix}

$y_t = y_{t-1} + u_t,\;\; t=1,...,T,\;\; y_0 =0 \tag{1}$

u_{t}

$u_t$

E (u_{t}^{2}) = σ_{u}^{2}

$E(u_t^2)= \sigma^2_u$

\begin{matrix} （2） & y_{t} = \sum_{私 = 1}^{t} {あなたは}_{私} \end{matrix}

$y_t = \sum_{i=1}^tu_i \tag{2}$

モデルを指定し、モデルと呼びます $A$

\begin{matrix} （3） & y_{t} = β y_{t - 1} + {あなたは}_{t} 、 t = 1 、 。 。 。 、 T 、 y_{0} = 0 \end{matrix}

$y_t = \beta y_{t-1} + u_t,\;\; t=1,...,T,\;\; y_0 =0 \tag{3}$

そして、私たちは見積もり取得仮定のために（のは、必要が生じた場合にのみ、推定方法を説明しましょう）。 $\hat \beta$ $\beta$

したがって、ステップ先の予測は $k$

\begin{matrix} （4） & {\hat{y}}_{T + k} = {\hat{β}}^{k} y_{T} \end{matrix}

$\hat y_{T+k} = \hat \beta^k y_T \tag{4}$

そしてそのMSEは

M S E_{A} [{\hat{y}}_{T + k}] = E {（ {\hat{β}}^{k} y_{T} - y_{T + k} ）}^{2}

$MSE_A[\hat y_{T+k}] = E\left(\hat \beta^k y_T-y_{T+k}\right)^2$

\begin{matrix} （5） & = E {[（ {\hat{β}}^{k} - 1 ） y_{T} - \sum_{私 = T + 1}^{T + k} {あなたは}_{私}]}^{2} = E [（ {\hat{β}}^{k} - 1 ）^{2} y_{T}^{2}] + k σ_{あなたは}^{2} \end{matrix}

$=E\left[(\hat \beta^k-1) y_T -\sum_{i=T+1}^{T+k}u_i \right]^2 = E\big[(\hat\beta^k-1)^2 y_T^2\big]+ k\sigma^2_u \tag{5}$

（正方形の中間項が消えるだけでなく、将来のエラーのクロス積もなくなります）。

ここで、データを変更し、モデルを指定したとしましょう。 $B$

\begin{matrix} （6） & △ y_{t} = γ △ y_{t - 1} + {あなたは}_{t} \end{matrix}

$\Delta y_t = \gamma \Delta y_{t-1} + u_t \tag{6}$

推定値を取得しました。異なるモデルを書くことができます $\hat \gamma$

\begin{matrix} （7） & y_{t} = y_{t - 1} + γ （ y_{t - 1} - y_{t - 2} ） + {あなたは}_{t} \end{matrix}

$y_t = y_{t-1} + \gamma (y_{t-1}-y_{t-2}) + u_t \tag{7}$

プロセスのレベルを予測すると、

{\hat{y}}_{T + 1} = y_{T} + \hat{γ} （ y_{T} - y_{T - 1} ）

$\hat y_{T+1} = y_{T} + \hat \gamma (y_{T}-y_{T-1})$

実際には、真のDGPが与えられます

\begin{matrix} （8） & {\hat{y}}_{T + 1} = y_{T} + \hat{γ} {あなたは}_{T} \end{matrix}

$\hat y_{T+1} = y_{T} + \hat \gamma u_T \tag {8}$

モデル場合、次のことを簡単に確認できます。 $B$

{\hat{y}}_{T + k} = y_{T} + （ \hat{γ} + {\hat{γ}}^{2} + 。 。 。 + {\hat{γ}}^{k} ） {あなたは}_{T}

$\hat y_{T+k} = y_{T} + \big(\hat \gamma + \hat \gamma^2+...+\hat \gamma^k)u_T$

ここで、「テスト済み」の推定手順を考えると、データが少なすぎる場合や非常に「悪い」形状の場合を除き、真の値がであるため、を取得することが合理的に予想されます。だから、ほとんどの場合、 $|\hat \gamma|<1$ $0$

\begin{matrix} （9） & {\hat{y}}_{T + k} = y_{T} + \frac{\hat{γ} - {\hat{γ}}^{k + 1}}{1 - \hat{γ}} {あなたは}_{T} \end{matrix}

$\hat y_{T+k} = y_{T} + \frac {\hat \gamma - \hat \gamma ^{k+1}}{1-\hat \gamma}u_T \tag{9}$

など

\begin{matrix} （10） & M S E_{B} [{\hat{y}}_{T + k}] = E [{（ \frac{\hat{γ} - {\hat{γ}}^{k + 1}}{1 - \hat{γ}} ）}^{2} {あなたは}_{T}^{2}] + k σ_{あなたは}^{2} \end{matrix}

$MSE_B[\hat y_{T+k}] = E\left[\left(\frac {\hat \gamma - \hat \gamma ^{k+1}}{1-\hat \gamma}\right)^2u_T^2\right] + k\sigma^2_u \tag{10}$

便宜上繰り返しますが

\begin{matrix} （5） & M S E_{A} [{\hat{y}}_{T + k}] = E [（ {\hat{β}}^{k} - 1 ）^{2} y_{T}^{2}] + k σ_{あなたは}^{2} \end{matrix}

$MSE_A[\hat y_{T+k} ] = E\big[(\hat\beta^k-1)^2 y_T^2\big]+ k\sigma^2_u \tag{5}$

したがって、差分MSEが予測MSEの観点からパフォーマンスを向上させるために、

M S E_{B} [{\hat{y}}_{T + k}] \leq M S E_{A} [{\hat{y}}_{T + k}]

$MSE_B[\hat y_{T+k}] \leq MSE_A[\hat y_{T+k}]$

\Rightarrow E [{（ \frac{\hat{γ} - {\hat{γ}}^{k + 1}}{1 - \hat{γ}} ）}^{2} {あなたは}_{T}^{2}] \leq E [（ {\hat{β}}^{k} - 1 ）^{2} y_{T}^{2}]

$\Rightarrow E\left[\left(\frac {\hat \gamma - \hat \gamma ^{k+1}}{1-\hat \gamma}\right)^2u_T^2\right] \leq E\big[(\hat\beta^k-1)^2 y_T^2\big]$

モデルの推定器と同様に、モデルの推定器にも同じ礼儀を拡張します。が「一致に近い」と合理的に予想します。 $B$ $A$ $\hat \beta$

になった場合、不等式の右側の量は（予測前のステップ数）として制限なく増加する傾向があることは明らかです。一方、目的の不等式の左側の量は、が増加するにつれて増加する可能性がありますが、上限があります。そのため、このシナリオでは、モデルと比較して、予測MSEの点で差異のあるモデル方がより適切であると予想されます。 $\hat \beta >1$ $k$ $k$ $B$ $A$

しかし、であるモデル場合の方が有利であると仮定します。次に、右側の数量にも限界があります。次にとして我々は、かどうかを検討する必要があります $A$ $\hat \beta <1$ $k \rightarrow \infty$

E [{（ \frac{\hat{γ}}{1 - \hat{γ}} ）}^{2} {あなたは}_{T}^{2}] \leq E [y_{T}^{2}] = T σ_{あなたは}^{2} ？ ？

$E\left[\left(\frac {\hat \gamma}{1-\hat \gamma}\right)^2u_T^2\right] \leq E\big[y_T^2\big]= T\sigma^2_u\;\; ??$

（は便利です-実際には、値が小さい場合、両方の大きさは既にその最高値に近くなります）。 $k \rightarrow \infty$ $k$

用語は「かなり近い」と予想されるため、モデルはこの側面からの利点があります。 $\left(\frac {\hat \gamma }{1-\hat \gamma}\right)^2$ $0$ $B$

推定器はから独立していないため、残りの期待値を分離することはできません。しかし、不平等を $\hat \gamma$ $u_T$

Cov [{（ \frac{\hat{γ}}{1 - \hat{γ}} ）}^{2} 、 {あなたは}_{T}^{2}] + E [{（ \frac{\hat{γ}}{1 - \hat{γ}} ）}^{2}] \cdot σ_{あなたは}^{2} \leq T σ_{あなたは}^{2} ？ ？

$\operatorname{Cov}\left[\left(\frac {\hat \gamma}{1-\hat \gamma}\right)^2,\,u_T^2\right] + E\left[\left(\frac {\hat \gamma}{1-\hat \gamma}\right)^2\right]\cdot \sigma^2_u \leq T\sigma^2_u\;\; ??$

\Rightarrow Cov [{（ \frac{\hat{γ}}{1 - \hat{γ}} ）}^{2} 、 {あなたは}_{T}^{2}] \leq （ T - E [{（ \frac{\hat{γ}}{1 - \hat{γ}} ）}^{2}] ） \cdot σ_{あなたは}^{2} ？ ？

$\Rightarrow \operatorname{Cov}\left[\left(\frac {\hat \gamma}{1-\hat \gamma}\right)^2,\,u_T^2\right] \leq \left (T-E\left[\left(\frac {\hat \gamma}{1-\hat \gamma}\right)^2\right]\right)\cdot \sigma^2_u \;\; ??$

ここで、推定子はすべてのエラーに依存するため、左側の共分散は小さいと予想されます。不等式の反対側では、は定常データセットに由来するため、上記の関数の期待値はサンプルのサイズよりもはるかに小さいと予想されます（この関数は、 in）。 $\hat \gamma$ $T$ $\hat \gamma$ $(0,1)$

したがって、全体として、特定の推定方法については説明せずに、差分MSEが予測MSEの観点からより良いパフォーマンスを期待されることを非公式に示すことができたと思います。

— アレコスパパドプロス
ソース

それはいい質問です。

私が知っているように、あなたはpacfを検討しただけですが、それだけでは不十分です。最適なモデルを選択するには、ACFとPACFの両方が必要です。

一方、定常テストは弱くて敏感であり、テストするには大量の遅延が必要です。

さらに、モデルを適用する前に時系列を静止させることをお勧めします。大まかに言えば、ARIMAモデルは、非定常であるという特殊なケースを考慮しています（傾向が好ましい）。

あなたの質問については、auto.arima関数についてはわかりませんが、この例のデータポイントの数は少ないと確信しています。多数のデータポイントを使用してモデルをシミュレートすると、質問に適切に答えられます。また、時系列のACFとPACFを検討することをお勧めします。モデルの選択については、経験則で最も単純なモデルを選択します（時系列を固定した後の最も単純なモデルに注意してください）。

この参照を参照します。この本はあなたのすべての質問に答えるわけではありませんが、手がかりを与えてくれます。

-----補足セクション-------データの傾向を考慮した@nsw。定常モデルを検討すると、上向き/下向きの予測になりますが、実際にはARMAモデルはフラットデータを予測するように設計されています。この違いを反映するようにコードを変更しました。

require（ '予測'）

require（ 'tseries'）

controlData <-arima.sim（list（order = c（1,1,1）、ar = .5、ma = .5）、n = 1000）

acf（controlData）

ts.plot（controlData）

naiveFit <-arima（controlData、order = c（2,0,1））

trueFit <-arima（controlData、order = c（1,1,1））

PrnaiveFit <-forecast.Arima（naiveFit、10）

PrtrueFit <-predict.Arima（trueFit、10）

matplot（cbind（PrnaiveFit $ mean、PrtrueFit $ mean）、type = 'b'、col = c（ 'red'、 'green'）、ylab = c（ 'predict ion'）、pch = c（ 'n'、 't'））

— TPArrow
ソース

この質問は、「時系列を静止させることが望ましい」理由を尋ねています。これは本当にその質問には答えません。

— シャドウトーカー

@ssdecontrolあなたは一般的に正しいです。私は本当に、仕様の誤り後の予測に対する暗黙の結果について心配しています。しかし、私はHamed.HMに勝ち過ぎたくありません。彼は、「これはモデルを選択する正しい方法ですか？」についての私の最後の質問にまだ答えていました。しかし、繰り返しになりますが、これはここでの私の懸念の最小です。

— クラークヘンリー