時系列セットの比較


10

比較したい3つの時系列データセットがあります。彼らは約12日間の3つの別々の期間に服用されています。これらは、最終週に大学図書館で受けた平均人数、最大人数、最小人数です。時間あたりの人数が連続していないため、平均、最大、最小を実行する必要がありました(時系列の定期的なデータギャップを参照)。

データセットは次のようになります。12夜の場合、夜ごとに1つのデータポイント(平均、最大、または最小)があります。データが取得されたのは3学期で、12日間の懸念期間のみです。したがって、たとえば、2010年春、2010年秋、および2011年5月には、それぞれ12ポイントのセットがあります。以下はチャートの例です。

ここに画像の説明を入力してください

学期ごとにパターンがどのように変化するかを見たいので、私は学期を重ねました。ただし、リンク先のスレッドで説明したように、中間にデータがないため、学期を完全に平手打ちすることはお勧めできません。

問題は、次のとおりです。各学期の出席パターンを比較するためにどのような数学的手法を使用できますか? 私がしなければならない時系列に特別なことはありますか、それとも単純にパーセントの差をとることができますか?私の目標は、最近のライブラリの使用量が増加または減少していると言うことです。それを示すためにどのテクニックを使用すればよいかわからない。

回答:


8

固定効果ANOVA(またはそれに相当する線形回帰)は、これらのデータを分析するための強力な一連のメソッドを提供します。説明のために、これは夕方あたりの平均HCのプロットと一致するデータセットです(色ごとに1つのプロット)。

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234 

countに対して分散分析を行いdaycolor次の表を作成します。

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206   

model0.0000 のp値は、近似が非常に有意であることを示します。day0.0000 というp値も非常に重要です。日々の変化を検出できます。ただし、color(学期の)p値0.2001は有意であると見なすべきではありません。日々の変動を制御した後、3つの学期間の系統的な違いを検出することはできません

TukeyのHSD(「正直有意差」)検定では、0.05レベルで(学期に関係なく)日々の平均値に次のような重要な変化(他のものに比べて)が見られます。

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

これは、目がグラフで見ることができるものを確認します。

グラフはかなり頻繁に移動するため、時系列分析の全体的なポイントである日々の相関(シリアル相関)を検出する方法はありません。言い換えれば、時系列手法を気にしないでください。ここには、洞察を提供するのに十分なデータがありません。

統計分析の結果をどれだけ信じるかは常に疑問に思う必要があります。分散性のさまざまな診断(Breusch-Pagan検定など)では、何も問題はありません。残差は非常に正常に見えません-それらはいくつかのグループに集まります-したがって、すべてのp値は塩の粒子で取得する必要があります。それにもかかわらず、それらは合理的なガイダンスを提供し、グラフを見て得られるデータの意味を定量化するのに役立ちます。

毎日の最小値または毎日の最大値で並列分析を実行できます。ガイドとして同様のプロットから始めて、統計出力を確認してください。


+1、シンプルでありながら強力なテクニックのデモ用。どのようにしてグラフから値を抽出したのですか?いくつかのソフトウェア、または悪い振る舞いの学生に対する罰?:)
mpiktas

1
@mpグラフィックのスクリーンショットの上にポイントをデジタル化し、GISソフトウェアでその座標を抽出し、スプレッドシートで座標を変換し、それを統計パッケージにインポートしました。数分で終わります。このメソッドは、データがチャートまたはマップの形式である場合にのみ便利です。
whuber

@whuberかっこいい!私はこれを知らなかった。
suncoolsu

@whuber 36の独立した観測と比較して、12の自己相関測定値の3セットを持つことの効果は何だろうと思います。私には本当に35の自由度がありません。反映する確率は、非中央カイ2乗変数と中央カイ2乗変数の比率を前提としています。ここで何か足りないものはありますか?プロットから数値を抽出するのは素晴らしい仕事です。この点で私たちを支援するために参照できる特定のプログラムはありますか?
IrishStat 2011

1
@アイリッシュレット バツ 1日の平均(色の間)であり、 y別の意味。私は等分散性を仮定します。あれは、Varバツ=Vary=σ2σわからない)。望ましい比較(「使用量...上昇または下降」)は、バツy=0。相関関係がなければ、Varバツy=2σ2。相関ありρ の間に バツ そして yVarバツy=21ρσ2。いつρ>0、分散は実際には分散分析モデルで想定されているよりも小さいです。したがって、t統計量、F統計量、およびTukey HSDはすべて、見た目よりも重要です。
whuber

0

サラ、36の数値(サイクルあたり12の値; 3サイクル)を取り、学期の影響の可能性を反映する11の指標を使用して回帰モデルを構築し、レンダリングに必要な介入シリーズ(パルス、レベルシフト)を特定します。残差の平均はどこでも0.0になるか、少なくとも0.0と統計的に有意差はありません。たとえば、期間13でレベルシフトを特定した場合、これは最初の学期の平均(最初の12の値)と最後の2つの学期の平均(最後の24の値)の間に統計的に有意な差があることを示唆している可能性があります。あなたは推論を引き出すか、学期の影響の週がないという仮説をテストすることができるかもしれません。この点で、適切な時系列パッケージが役立つ場合があります。この分析の分野で助けを提供する誰かを見つける必要があるかもしれないことを失敗する。


1
これは、2因子分散分析(サイクル別の日数)の説明のように聞こえ、その後11組の日数の計画されたテストが続きます。プレーンな古い統計ソフトウェアは、特殊な時系列ソフトウェアよりも柔軟で強力に使用できます。それは確かに簡単になります。ところで、インデックスは学期の週ではなく、(試験期間中の)日です。
whuber

ANOVAを使用して1日あたりの最大値と最小値を比較することもできますか?またはこれは手段にのみ適用されますか?
induvidyul 2011

@Sarah最小値と最大値に適用できる場合があります。ただし、これらの統計は平均値よりもはるかに変動する傾向があるため、時間の経過または学期間の統計の変化を検出できる可能性は低くなります。グラフを見ると、平均が大きく異なることがわかります。可能であれば、1日の時間を組み込み、日平均ではなく元の時間カウントを使用して、ANOVAを3元にします。
whuber

@whuber:1時間ごとのデータは午前12時から午前6時までしか記録されていないため、それらを一緒にストリング化することは使用できないと言われました。前の質問「時系列の定期的なデータギャップ」を参照してください。
induvidyul 2011

@Sarah私は別のことについて話している:依存関係を3つの要素、つまり期間(3つ)、日から期間(12つ)、および時間(6つ)でモデル化します。時間間の相関関係を説明することもできますが、それはあなたの目的には必要ないかもしれません。とにかく、私は各期間を12 * 24カウントの中断されたシリーズとして表示することを推奨していません。欠落データが多すぎるためです。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.