受信したデータの季節性を検出したい。季節サブシリーズプロットや自己相関プロットなど、いくつかの方法がありますが、問題はグラフの読み方がわからないことです。もう1つは、グラフの最終結果の有無にかかわらず季節性を検出する他の方法がありますか?
受信したデータの季節性を検出したい。季節サブシリーズプロットや自己相関プロットなど、いくつかの方法がありますが、問題はグラフの読み方がわからないことです。もう1つは、グラフの最終結果の有無にかかわらず季節性を検出する他の方法がありますか?
回答:
通常の一連のデータで周期性を見つけるための本当に良い方法は、全体的な傾向を取り除いた後、そのパワースペクトルを調べることです。(これは、総電力が1などの標準値に正規化されている場合の自動スクリーニングに役立ちます。)予備的なトレンド除去(およびシリアル相関を除去するためのオプションの差分)は、他の動作との混乱を避けるために不可欠です。
パワースペクトルは、元の系列の適切に平滑化されたバージョンの自己共分散関数の離散フーリエ変換です。時系列を物理的な波形のサンプリングと考えると、各周波数内で伝達される波の総電力の量を推定できます。パワースペクトル(またはピリオドグラム)は、パワー対周波数をプロットします。周期的(つまり、反復的または季節的なパターン)は、その周波数にある大きなスパイクとして現れます。
例として、1年間(365個の値)の毎日の測定から得られるこの(シミュレートされた)時系列の残差を考えてみましょう。
値は明確な傾向なしに付近で変動し、すべての重要な傾向が除去されたことを示しています。変動はランダムに見えます。周期性は明らかではありません。
同じデータの別のプロットを次に示します。これは、可能な周期パターンを確認するのに役立ちます。
本当にハードに見える場合は、ノイズが多いが繰り返し発生するパターンを11〜12回見分けることができる場合があります。ゼロ以上およびゼロ以下の値の長いシーケンスは、少なくともいくつかの正の自己相関を示唆しており、この系列が完全にランダムではないことを示しています。
ここにピリオドグラムがあり、最大91(シリーズ全体の長さの4分の1)までの周波数に対して表示されます。ウェルチウィンドウで構成され、単位面積に正規化されました(ここに示されている部分だけでなく、ピリオドグラム全体に対して)。
パワーは「ホワイトノイズ」(小さなランダムな変動)と2つの顕著なスパイクのように見えます。彼らは見逃しがたいですよね?12の周期で大きくなり、52の周期で小さくなります。この方法により、これらのデータで月ごとの周期と週ごとの周期が検出されました。これで本当にすべてです。サイクル(「季節性」)の検出を自動化するには、ピリオドグラム(値のリスト)をスキャンして、比較的大きな局所的最大値を求めます。
これらのデータがどのように作成されたかを明らかにする時が来ました。
値は2つの正弦波の合計から生成されます。1つは周波数12(2乗振幅3/4)で、もう1つは周波数52(2乗振幅1/4)です。これらは、ピリオドグラムのスパイクが検出したものです。それらの合計は、太い黒の曲線として表示されます。次に、黒い曲線から赤い点まで伸びる明るい灰色のバーで示されるように、分散2のIid Normalノイズが追加されました。このノイズにより、ピリオドグラムの下部に低レベルの小刻みが導入されました。そうでない場合は、フラット0になります。ドットを見ただけでは周期性を判断するのはとても難しいです。それにも関わらず(ピリオドグラムを使用して周波数を見つけることは、一部にはデータが非常に多いため)、結果は明確です。
ピリオドグラムを計算するための指示と適切なアドバイスは、数値レシピサイトにあります。「FFTを使用したパワースペクトル推定」のセクションを参照してください。 ピリオドグラム推定のためのコードR
があります。これらの図はMathematica 8で作成されました。ピリオドグラムは「フーリエ」関数で計算されました。
ニュージャージー州の都市からのログ失業率に関する月次データを使用した例を次に示します(Stataから。これは元々これらのデータを分析したためです)。
線の高さは、変数とそれ自体のラグの相関関係を示しています。灰色の領域は、この相関が有意であるかどうかの感覚を示します(この範囲はあくまでも目安であり、有意性をテストする最も信頼できる方法ではありません)。この相関が高い場合、シリアル相関の証拠があります。期間12、24、36の前後に発生するこぶに注意してください。これは毎月のデータであるため、正確に1、2、または3年前の期間を見ると相関が強くなることを示唆しています。これは毎月の季節性の証拠です。
季節性コンポーネントを示すダミー変数で変数を回帰することにより、これらの関係を統計的にテストできます。ここでは、月のダミーです。これらのダミーの共同重要性をテストして、季節性をテストできます。
テストではエラー項が連続して相関していないことが必要なので、この手順は適切ではありません。したがって、これらの季節性ダミーをテストする前に、残りのシリアル相関を削除する必要があります(通常、変数のラグを含めることにより)。テストから適切な結果を得るために修正する必要があるパルス、ブレーク、および他のすべての時系列問題が存在する場合があります。あなたはそれらについて質問しなかったので、私は詳細には立ち入りません(さらに、これらのトピックに関するCVの質問がたくさんあります)。(好奇心を養うために、このシリーズには月間ダミー、それ自体の単一のラグ、およびシリアル相関を取り除くためのシフトコンポーネントが必要です。)
季節性は時間とともに変化する場合があり、実際に変化する場合が多いため、要約測定では構造を検出するのに非常に不十分な場合があります。ARIMA係数の過渡性をテストする必要があり、「季節ダミー」の変更が多いことがあります。たとえば、10年の期間では、最初のk年間に6月の影響はなかったかもしれませんが、最後の10-k年には6月の影響の証拠があります。単純な複合6月効果は、効果が時間とともに一定ではなかったため、重要ではない場合があります。同様に、季節のARIMAコンポーネントも変更された可能性があります。誤差の分散が時間とともに一定であることを保証しながら、ローカルレベルのシフトやローカル時間の傾向を含めるように注意する必要があります。GLS /加重最小二乗などの変換や、対数/平方根などのべき乗変換を評価しないでください。元のデータについてですが、暫定モデルからのエラーについて。ガウスの仮定は、観測されたデータとは関係ありませんが、モデルからのエラーと関係があります。これは、非中央カイ二乗変数と中央カイ二乗変数の比率を使用する統計的検定の基盤によるものです。
世界のサンプルシリーズを投稿したい場合は、季節構造の検出につながる徹底的な分析を提供していただければ幸いです。
チャーリーの答えはいいです、そしてそれは私が始めたいところです。ACFグラフを使用したくない場合は、存在するk個の期間に対してk-1個のダミー変数を作成できます。次に、ダミー変数(および傾向項)を使用した回帰で、ダミー変数が重要であるかどうかを確認できます。
データが四半期ごとの場合:ダミーQ2はこれが第2四半期であれば1、そうでなければ0ダミーQ3はこれが第3四半期であれば1、そうでなければ0ダミーQ4はこれが第4四半期であれば1、そうでなければ0注四半期1はベースケース(3つのダミーはすべてゼロ)
Minitabで「時系列分解」(「古典的分解」とも呼ばれます)もチェックしてください。最終的には、よりモダンなものを使用することもできますが、これは簡単な開始点です。