RのARIMA残差のLjung-Box統計:混乱したテスト結果


14

予測しようとしている時系列があり、そのために季節のARIMA(0,0,0)(0,1,0)[12]モデル(= fit2)を使用しました。Rがauto.arimaで提案したものとは異なります(Rで計算されたARIMA(0,1,1)(0,1,0)[12]の方がより適切であるため、fit1と名付けました)。ただし、時系列の最後の12か月では、モデル(fit2)を調整するとよりよくフィットするようです(慢性的に偏っていたため、残差平均を追加し、新しいフィットは元の時系列の周囲によりぴったりと収まるようです)過去12か月の例と、両方の近似の最近12か月のMAPEは次のとおりです。

fit1、fit2および元のデータ

時系列は次のようになります。

元の時系列

ここまでは順調ですね。私は両方のモデルの残差分析を実行しましたが、これが混乱です。

acf(resid(fit1))は素晴らしく、非常にホワイトノイズが多い:

fit1のacf

ただし、Ljung-Boxテストは、たとえば20のラグに対しては見栄えがよくありません。

    Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1)

次の結果が得られます。

    X-squared = 26.8511, df = 19, p-value = 0.1082

私の理解では、これは残差が独立していないことの確認です(p値が大きすぎて独立仮説を維持できない)。

ただし、ラグ1では、すべてが素晴らしいです。

    Box.test(resid(fit1),type="Ljung",lag=1,fitdf=1)

私に結果を与えます:

    X-squared = 0.3512, df = 0, p-value < 2.2e-16

テストを理解していないか、またはacfプロットで見たものとわずかに矛盾しています。自己相関は非常に低いです。

次に、fit2をチェックしました。自己相関関数は次のようになります。

acf fit2

いくつかの最初のラグでのこのような明らかな自己相関にもかかわらず、Ljung-Boxテストでは、fit1よりも20ラグではるかに良い結果が得られました。

    Box.test(resid(fit2),type="Ljung",lag=20,fitdf=0)

結果:

    X-squared = 147.4062, df = 20, p-value < 2.2e-16

一方、lag1で自己相関をチェックするだけで、帰無仮説の確認もできます。

    Box.test(resid(arima2.fit),type="Ljung",lag=1,fitdf=0)
    X-squared = 30.8958, df = 1, p-value = 2.723e-08 

テストを正しく理解していますか?残差の独立性の帰無仮説を確認するために、p値は0.05より小さいことが望ましいです。予測には、fit1とfit2のどちらが適していますか?

追加情報:fit1の残差は正規分布を示し、fit2の残差は正規分布を示しません。


2
あなたはp値を理解しておらず、それらを間違った方法で解釈しています。
Scortchi -復活モニカ

はい、それは理解の問題かもしれません。拡大していただけますか?たとえば、p値が0.5より大きい場合、正確にはどういう意味ですか?私はp値の定義を読んだ(帰無仮説が成り立つ場合、少なくとも検定統計量と同じくらい極端な統計値を取得する確率)。Ljung-Boxテストにはどのように適用されますか?「少なくとも同じくらい極端」とは「Xの2乗より大きい」という意味ですか?有意性テストは理解するのが難しいため、データを使用した例に感謝します。
ジマ

5
Ljung-Box検定統計量(X-squared)は、残差のサンプル自己相関が大きくなると大きくなり(その定義を参照)、そのp値は、nullの下で観測される値以上の値を得る確率です。真のイノベーションは独立しているという仮説。したがって、小さなp値は独立性に対する証拠です。
Scortchi -復活モニカ

@Scortchi、私はそれを得たと思う。しかし、それにより、fit1のlag = 1でのテストも失敗します。これはどのように説明できますか?lag = 1で自己相関が見られません。少数の遅延を伴うこのテストのある種の極値(非常に小さなサンプル)はありますか?
ジマ

3
Box-Ljungは、指定したものまでのすべてのラグにおける独立性のオムニバステストです。使用される自由度はnoです。マイナスマイナス。AR&MAパラメーター(fitdf)なので、自由度が0のカイ2乗分布に対してテストしていました。
Scortchi -復活モニカ

回答:


32

テストを間違って解釈しました。p値が0.05より大きい場合、残差は独立しており、モデルが正しいことを望みます。以下のコードを使用してホワイトノイズ時系列をシミュレートし、同じテストを使用すると、p値は0.05より大きくなります。

m = c(ar, ma)
w = arima.sim(m, 120)
w = ts(w)
plot(w)
Box.test(w, type="Ljung-Box")

3
短く簡潔な説明。コード例では+1。
-Dawny33

1
あなたの解釈も正しくありません。p値が0.05の場合、自己相関がないという帰無仮説を1番目の順序まで拒否すると、5%の確率でエラーが発生します。
DJJ

7

多くの統計的検定は、帰無仮説を棄却するために使用されます。この特定のケースでは、Ljung-Boxテストはいくつかの値の独立性を拒否しようとします。どういう意味ですか?

  • もしp値<0.05 1:あなたは間違いを犯し、5%の確率を想定した帰無仮説を棄却することができます。そのため、値が相互に依存していると仮定できます。

  • もしp値> 0.05 1:あなたが帰無仮説を棄却するのに十分な統計的な証拠を持っていません。したがって、値が依存していると仮定することはできません。これは、とにかく値が依存していることを意味するか、値が独立していることを意味します。しかし、特定の可能性を証明しているわけではありません。テストで実際に言ったのは、値の依存関係を表明することも、値の独立性を表明することもできないということです。

一般に、ここで重要なのは、p値<0.05では帰無仮説を棄却できるが、p値> 0.05では帰無仮説を確認できないことに留意することです。

特に、Ljung-Boxテストを使用して時系列の値の独立性を証明することはできません。依存関係のみを証明できます。


α=0.05


α=0.05

0

ACFグラフによると、ラグk(k> 1)での相関係数が急激に低下し、0に近づくため、適合1の方が明らかに優れています。


0

ACFで判断している場合、適合1がより適切です。Ljungテストで混乱する代わりに、残差のコレログラムを使用して、fit1とfit2の間の最適な適合を確認できます。


1
この答えがわかりません。
マイケルR.チャーニック

Ljungボックス統計にアクセスすると、モデル診断チェック、つまりモデルの妥当性に興味があります。それを使用するのが混乱する場合は、上記で説明したモデルの妥当性を確認する他の方法があります。データ残余のコレログラムIe、ACFおよびPACFをプロットし、それがホワイトノイズである場合にシリーズの境界を確認できます...... Ljungボックステストを使用する必要はありません
Vincent
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.