各日付の複数の観測を含む時系列を構築する


11

私は、四半期ごとに3担当者がいる10年間の四半期ごとにサンプリングされたデータ(動物バイオマス)に時系列を適用しようとしています。つまり、40日付ですが、合計120観測です。

私は、ShumwayのSARIMA'aとStofferの時系列分析まで読んだことがあります。al。の適用時系列分析。私の理解では、各モデルは時系列の各ポイントでの単一の観測に基づいています。

質問:モデルの各観測値の変動をどのように含めることができますか?平均値でシリーズを構築することはできますが、観測ごとの変動を緩めるので、何が起こっているのかを理解する上でそれは重要です。


SARIMAは、多変量のケースに拡張できます。この場合のキーワードはVARです。これは、期間ごとに1つの数値ではなく、数値のベクトルを観察することを意味します。
mpiktas 2012

回答:


4

「四半期ごとの3担当者」が正確に何を意味するかによって、パネルデータ(Wikipedia)モデルが意味をなす場合があります。これは、四半期ごとに3つの測定値を取得していることを意味します。データは次のようになります。

obs quarter value
  A       1   2.2 
  A       2   2.3 
  A       3   2.4 
  B       1   1.8 
  B       2   1.7 
  B       3   1.6 
  C       1   3.3 
  C       2   3.4 
  C       3   3.5 

これがあなたが見ているものであれば、パネルデータを操作するためのモデルがいくつかあります。以下は、パネルデータの表示に使用する基本的なRのいくつかをカバーする適切なプレゼンテーションです。このドキュメントは、計量経済学の観点からではありますが、もう少し深く掘り下げています。

ただし、データがパネルデータの方法論に適合しない場合は、「プールされたデータ」に使用できる他のツールがあります。この論文の定義(pdf)

データのプールとは、複数の母集団に関連する複数のデータソースを使用した統計分析を意味します。情報の平均化、比較、一般的な解釈が含まれます。関係するデータソースと母集団が同じか、類似しているか、異なるかによって、異なるシナリオと問題も発生します。

ご覧のとおり、その定義から、使用する手法は、データから何を学習することが期待されているかに依存します。

各四半期の3つのドローが時間的に一貫していると仮定して、開始する場所を提案するとしたら、固定効果推定器(内部推定器とも呼ばれます)を使用して、データ。

上記の例では、コードは次のようになります。

> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5), 
                     quarter=c(1,2,3,1,2,3,1,2,3), 
                     obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)

これにより、次の出力が得られます。

Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)

Residuals:
         1          2          3          4          5          6          7 
-1.667e-02 -8.940e-17  1.667e-02  8.333e-02 -1.000e-01  1.667e-02 -1.667e-02 
         8          9 
 1.162e-16  1.667e-02 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.13333    0.06055  35.231 3.47e-07 ***
quarter       0.08333    0.02472   3.371 0.019868 *  
factor(obs)B -0.50000    0.04944 -10.113 0.000162 ***
factor(obs)C  1.10000    0.04944  22.249 3.41e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928 
F-statistic: 369.2 on 3 and 5 DF,  p-value: 2.753e-06 

ここで、四半期変数の係数の時間の影響、およびグループBまたはグループC(グループAではなく)にいることの影響を明確に見ることができます。

これがあなたを正しい方向に向けることを願っています。


3

面白いと思います。私の提案は、3つのデータポイントを平均して、滑らかな時系列をフィットさせることです。あなたがこれを行うと、あなたが3つの観察の平均を取ったことを無視してあなたが指摘したように、あなたは情報を捨てています。ただし、各時点について、平均からの偏差の2乗を合計できます。すべての期間にわたってそれらの二乗和をプールし、n-1で除算します。ここで、nは計算で使用されるポイントの総数です。時系列構造(例:トレンド、季節成分、AR依存構造)を持つモデルがある場合、この計算は、モデル内の誤差項の分散の独立した偏りのない推定になる可能性があります。


1
+1は、実行が簡単で理論的に有効な便利なアイデアです。ただし、小さな修正が1つあります期間にわたって値が観測されます。分散の不偏推定では、すべての二乗偏差の合計をまたはではなくで割ります(どちらかが大幅に異なり、間違っています)。このようにすべてをプールすることが正当であるかどうかを評価するために、個人の分散の推定値(期間ごとに1つ)も経時的にプロットする必要があります。3nn3n2nn13n1
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.