プロセスがそれ自体の以前の値に依存する場合、それはARプロセスであることを理解しています。以前のエラーに依存する場合、MAプロセスです。
これら2つの状況のいずれかが発生するのはいつですか?プロセスがMA vs ARとして最適にモデル化されることの意味に関する根本的な問題を明らかにする堅実な例はありますか?
プロセスがそれ自体の以前の値に依存する場合、それはARプロセスであることを理解しています。以前のエラーに依存する場合、MAプロセスです。
これら2つの状況のいずれかが発生するのはいつですか?プロセスがMA vs ARとして最適にモデル化されることの意味に関する根本的な問題を明らかにする堅実な例はありますか?
回答:
1つの重要で有用な結果は、Wold表現定理(Wold分解とも呼ばれます)です。これは、すべての共分散定常時系列が、1つの決定論的確率と1つの確率的確率の2つの時系列の合計として記述できることを示します。
ここで、決定的です。
2番目の用語は無限MAです。
(また、可逆的MAは無限のARプロセスとして記述できる場合もあります。)
これは、系列が共分散定常であり、決定論的部分を識別できると仮定した場合、常に確率論的部分をMAプロセスとして記述できることを示唆しています。同様に、MAが可逆性の条件を満たしている場合は、いつでもARプロセスとして記述できます。
1つのフォームで記述されたプロセスがある場合、他のフォームに変換することができます。
そのため、少なくともある意味では、共分散定常系列では、ARまたはMAのいずれかが適切であることがよくあります。
もちろん、実際には非常に大きなモデルは必要ありません。有限のARまたはMAがある場合、ACFとPACFの両方が最終的に幾何学的に減衰します(いずれかの関数の絶対値が下に位置する幾何関数があります)。これは、ARまたは他の形式のMAは、かなり短い場合がよくあります。
そのため、共分散定常条件の下で、決定論的および確率的成分を識別できると仮定すると、ARとMAの両方が適切であることがよくあります。
Box and Jenkinsの方法論では、パラメータの少ないAR、MA、またはARMAモデルのpar約モデルを探します。通常、ACFとPACFは、定常性への変換(おそらく差分による)、ACFとPACFの外観からのモデルの識別(他のツールを使用することもある)、モデルのフィッティング、および検査によって、モデルの識別に使用されます残差の構造が(通常は残差のACFおよびPACFを介して)残差系列がホワイトノイズと合理的に一致するようになるまで。多くの場合、シリーズを合理的に近似できる複数のモデルがあります。(実際には、他の基準がしばしば考慮されます。)
このアプローチを批判する根拠がいくつかあります。一例として、そのような反復プロセスの結果として生じるp値は、一般にモデルが(データを見て)到達した方法を考慮しません。この問題は、たとえばサンプルの分割によって少なくとも部分的に回避される可能性があります。2番目の例の批判は、実際に定常的な系列を取得することの難しさです-多くの場合、定常性と合理的に一貫しているように見える系列を取得するように変換される可能性がありますが、実際にはそうではありません(同様の問題は一般的です統計モデルに問題がありますが、ここでは問題になる場合があります)。
[ARと対応する無限MAの関係については、HyndmanとAthanasopoulosの予測:原則と実践で説明さ れています ]
私は、質問の最初の部分に対する説得力のある回答(「MA?」)であると思うものを提供できますが、現在、質問の2番目の部分(「AR?」)への同様に説得力のある回答を考えています。
連続した日の株式の終値(分割と配当について調整済み)で構成されるシリーズを考えます。毎日の終値は、トレンド(たとえば、時間的に線形)と、前日からの毎日のショックの加重効果から導き出されます。おそらく、t-1日のショックの影響は、t-2日のショックなどよりもt日の価格に強い影響を与えるでしょう。したがって、論理的には、t日の株価の終値はトレンドを反映します。日tの値に定数(1未満)を掛け、日t-1までのショックの加重和(つまり、日t-1の誤差項)(MA1)、場合によっては定数(1未満) t-2日目までのショックの加重和(すなわち、t-2日目における誤差項)(MA2)、…、およびt日目での新規ショック(ホワイトノイズ)を掛けます。この種のモデルは、株式市場のような一連のモデリングに適しているようです。この場合、t日の誤差項は、過去と現在のショックの加重和を表し、MAプロセスを定義します。私は、排他的ARプロセスのための同様に説得力のある理論的根拠に取り組んでいます。
これは、AR、MA、およびARMAプロセスを視覚化するのに役立つ最も簡単な例です。
これは、被験者へのイントロの視覚的な補助にすぎず、考えられるすべてのケースを説明するのに十分なほど厳密ではないことに注意してください。
次のことを想定します。特定の種類のアクションを実行するタスクを担当している2人のエージェントがいます(水平に右にジャンプします)。
「人間」は、平均して、彼/彼女の身体的能力に応じて、ジャンプごとに「μ」の標準偏差で「μ」の距離をカバーすると予想されます。しかし、人間は特に精神的不屈に欠けています:)。また、彼/彼女のパフォーマンスは、以前のジャンプが彼の/彼女の期待を遅れた/満たした/超えたかどうかにも依存します。
「マシン」は、上記の人間とまったく同じ仕様で設計されていますが、違いは1つだけです。マシンは無感情で、過去のパフォーマンスの影響を受けません。
また、2つのジャンプを含む各ゲームで、両方のエージェントがプレイする2つのゲームがあります。
「最終ジャンプ」は、競技では無視されますが人間が観察できるウォームアップジャンプの後の最終ジャンプでカバーされた距離に基づいて採点されました。最後のジャンプは、ウォームアップジャンプが始まるところから始まります。
「ジャンプの組み合わせ」は、最初のジャンプと最後のジャンプでカバーされた合計距離に基づいて得点されます。最初のジャンプが着地した場所から最後のジャンプが始まります。
以下のチャートは、上記の俳優とゲームに関連する4つのシナリオのそれぞれを最もよく説明するモデルを示しています。
単変量の時系列があり、それをモデル化/予測する必要がありますか?ARIMAタイプモデルの使用を選択しました。
のパラメーターは、データセットに最適なものによって異なります。しかし、どうやって見つけるのですか?最近のアプローチは、Hyndman&Khandakar(2008)(pdf)による「自動時系列予測」です。
アルゴリズムは、p、q、P、およびQの異なるバージョンを試行し、AIC、AICc、またはBICが最小のものを選択します。予測Rパッケージのauto.arima()関数で実装されます。情報基準の選択は、関数に渡すパラメーターによって異なります。
線形モデルの場合、AICが最小のモデルを選択することは、Leave-one-out交差検証と同等になります。
また、少なくとも4年間は十分なデータがあることを確認する必要があります。
いくつかの重要なチェック:
以下のFirebugのコメントに対する明示的な回答:データがサポートしている場合。
"My question is, when would one of either of these two situations occur? "