複数のARIMAモデルはデータによく適合します。順序を決定する方法は?正しいアプローチ?


8

2つの時系列(男性と女性のモデルのパラメーター)があり、予測を行うために適切なARIMAモデルを特定することを目指しています。私の時系列は次のようになります。

ここに画像の説明を入力してください

プロットとACFは非定常を示しています(ACFのスパイクは非常にゆっくりとカットオフします)。したがって、私は差分を使用して取得します:

ここに画像の説明を入力してください

このプロットは、系列が静止している可能性があり、kpssテストとadfテストの適用がこの仮説をサポートしていることを示しています。

男性シリーズから始めて、以下の観察を行います。

  • ラグ1、4、5、26および27での経験的自己相関は、ゼロとは有意に異なります。
  • ACFはカットオフ(?)しますが、ラグ26と27での比較的大きなスパイクが心配です。
  • ラグ1と2での経験的部分自己相関のみが、ゼロと有意に異なります。

これらの観察のみに基づいて、差分時系列に純粋なARモデルまたはMAモデルを選択する必要がある場合、次のように主張してAR(2)モデルを選択する傾向があります。

  • ラグが2より大きい場合、部分的な自己相関はありません。
  • ACFは、27ラグ付近の領域を除いてカットオフします(これらの少数の外れ値だけが指標であり、混合ARMAモデルが適切であることを示しますか?)

または以下のように主張することによりMA(1)モデル:

  • PACFは明らかにカットオフ
  • ラグには、マグニチュードの臨界値を超える1〜4のスパイクがあります。これは、点線領域の外にあることが許可されている3つのスパイク(60のうち95%)より1つ多い「唯一の」ものです。

ARIMA(1,1,1)モデルの特性はなく、p + q> 2のACFおよびPACFに基づいてARIMAモデルのpおよびqの次数を選択することは困難になります。

auto.arima()をAIC基準で使用すると(AICまたはAICCを使用する必要がありますか)、次の結果が得られます。

  1. ドリフトのあるARIMA(2,1,1)。AIC = 280.2783
  2. ドリフト付きARIMA(0,1,1)。AIC = 280.2784
  3. ドリフト付きARIMA(2,1,0)。AIC = 281.437

検討した3つのモデルすべてがホワイトノイズの残差を示しています。

ここに画像の説明を入力してください

要約した質問は次のとおりです。

  1. 時系列のACFは、26ラグ前後の急上昇にもかかわらず、まだ切断されていると説明できますか?
  2. これらの外れ値は、混合ARMAモデルがより適切である可能性があることを示す指標ですか?
  3. どの情報基準を選択すればよいですか?AIC?AICC?
  4. AICが最も高い3つのモデルの残差はすべてホワイトノイズ動作を示しますが、AICの差はごくわずかです。パラメータが最も少ないもの、つまりARIMA(0,1,1)を使用する必要がありますか?
  5. 私の議論は一般的にもっともらしいですか?
  6. どちらのモデルが優れているかを判断する可能性はありますか?たとえば、AICが最も高い2つのモデルでバックテストを実行して予測の妥当性をテストする必要がありますか?

編集:ここに私のデータがあります:

-5.9112948202 -5.3429985122 -4.7382340534 -3.1129015623 -3.0350910288 -2.3218904871 -1.7926701792 -1.1417358384 -0.6665592055 -0.2907748318 0.2899480865 0.4637205370  0.5826312749  0.3869227286  0.6268379174  0.7439125292 0.7641139207  0.7613140511  3.0143912244 -0.7339255839  2.0109976796 0.8282394650 -2.5668367983  5.9826406394  1.9569198553  2.3860893476 2.0883339390  1.9761894580  2.2601997245  2.2464027995  2.5131158613 3.4564765529  4.2307335557  4.0298688374  3.7626317439  3.1026407174 2.1690168737  1.5617407254  2.6790460788  0.4652054768 -0.0501046517 -1.0157683791 -0.5113698054 -0.0180401353 -1.9471272198 -0.2550365250 -1.1269988523  0.5152074134  0.2362626753 -2.9978337017  1.4924705528 -1.4907767844 -0.5492041416 -0.7313021018 -0.6531515868 -0.4094159299 -0.5525401626 -0.0611454515 -0.5256272882 -1.1235247363 -1.7299848758 -1.3807763611 -1.6999054476 -4.3155973110 -4.7843298990

回答:


4

1)時系列のACFは、ラグ26の周りのスパイクにもかかわらずカッティングとして説明できますか?

26と27は、データが注文26または52の週次のある種の年間サイクルであることを示唆しています

これらの外れ値は、混合ARMAモデルがより適切である可能性があることを示す指標ですか?

観測された系列に外れ値がある場合、ARIMAモデルはダミー入力を持つ伝達関数モデルになります。

acf / pacfの外れ値は通常解釈できません。Ratheは、支配的なacf / pacf abdによって提案された暫定モデルのacf / pafを使用してから、より複雑なモデルにITERATEします。

どの情報基準を選択すればよいですか?AIC?AICC?AICが最も高い3つのモデルの残差はすべてホワイトノイズ動作を示しますが、AICの差はごくわずかです。パラメータが最も少ないもの、つまりARIMA(0,1,1)を使用する必要がありますか?

想定モデルの試験セットに基づいているため、なし。

私の議論は一般的にもっともらしいですか?あいまいな質問...あいまいな応答でさえ。

どちらのモデルが優れているかを判断する可能性はありますか?たとえば、AICが最も高い2つのモデルでバックテストを実行して予測の妥当性をテストする必要がありますか?

自動反復構造と確定構造の両方を組み込んだ複雑なモデルに(ゆっくりと!)単純に反復します。論理フロー図については、http://www.autobox.com/cms/index.php/blog/entry/build-or-make-your-own-arima-forecasting-modeを参照してください

データの受信後に編集:

私はあなたのコメントに惑わされました、あなたは26という単語の遅れを使いました、そして私はあなたがacfについて話しているのを間違って理解しましたが、あなたは26の時点について話していました。平均がシフトすると、この非定常性に対する救済策は意味をなさなくなります。あなたの場合、非定常性は2つの別個の異なる傾向と1つのエラー分散の大幅な増加によって引き起こされます。これらの所見はどちらも、目で簡単に確認できます。ここに画像の説明を入力してください

データには非定常性がありますが、平均値でのデータの非定常性に対する改善策は差異ではありませんが、介入検出を介して検出された2つの傾向(1-29および30-65)が検出されるため、傾向が低下します。さらに、エラー分散は非定常エラー分散のTsayのテストで見つかった期間28で非定常的に大幅に増加しています。両方の手順については、このリファレンスを参照してくださいhttp://www.unc.edu/~jbhill/tsay.pdf。2つの傾向とエラー分散の変化といくつかのパルスを調整した後、単純なAR(1)モデルが適切であることがわかりました。これが実際/適合/予測のプロットです。方程式ここに画像の説明を入力してくださいはここにあり、推定結果はここにあります ここに画像の説明を入力してください。分散変化検定はこちらここに画像の説明を入力してください、モデルの残差のプロットはこちらここに画像の説明を入力してください。信号からノイズを自動的に分離するために開発したソフトウェアの1つであるAUTOBOXを使用しました。単純な方法では複雑な問題を解決できないため、単純なARIMAモデリングが広く使用されない理由は、データセットが「ポスターボーイ」であるということです。エラー分散の変化はオブザーブ系列のレベルにリンクできないため、発行された論文がその構造を使用してモデルを提示している場合でも、ログなどのべき変換は関係がないことに注意してください。力の変換を行う時期については、ARIMAの対数変換または平方根変換を参照してください。

ここに画像の説明を入力してください


役立つコメントをありがとうございます。残念ながら、時系列は、ある範囲の(死亡率)モデルの推定パラメーターを表します。したがって、季節的な要素を含めることでこの問題を解決できるとは思いません。単純な仮のモデルから始めて、それをより複雑なモデルに反復するという点について、ARIMA(0,1,1)の残差のACFとPACFを見ると、WNの動作がわかります。より複雑なモデルの必要性を浮き彫りにする、どんな種類のパターンを見逃しますか?ところで、データを追加しました。
Stats_L 2015

あなたの努力とコメントに感謝します。興味深いことに、パラメータは一般に文献に単純ARIMA(p、d、q)モデルとしてモデル化された死亡率モデルのコホート効果を表し、参照例pensions-institute.org/workingpapers/wp0801.pdf
Stats_L

ここでのキーワードは「シンプル」です。アクチュアリーは才能のある数学者ですが、必ずしも時系列分析の最先端ではありません。優れた分析は、仮定のテストを示す有意性と十分性のテストを提示します。あなたはこれらの結果を著者に渡し、彼らのフィードバックを得るか、少なくとも彼らの意識を拡大したことに対する信用を得るかもしれません。
IrishStat 2015

これは、特定のARIMA(p、d、q)モデルの選択がAIC値のみに基づくことが多い理由を説明します(または、少なくともそれ以上の検査は詳細に言及および説明されていません)。翌日中に時間が見つかれば、私が予測しなければならない2番目の時系列についてのあなたの意見に非常に興味があります。ドリフトを伴うランダムウォークが適切かどうかです。これは、ここで見つけることができます:stats.stackexchange.com/questions/161571/...
Stats_L
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.