時系列を集計してより意味のあるものにすることは有効ですか?


10

私からの時系列に関する別の質問。

私は、精神科病院での3年間にわたる暴力事件の毎日の記録を提供するデータセットを持っています。私の前の質問の助けを借りて、私はそれをいじっていて、今それについて少し幸せです。

私が今持っているのは、毎日のシリーズは非常にうるさいということです。それは、時々0から最大20まで、上下に大きく変動します。レスプロットと予測パッケージ(私のような初心者には強くお勧めします)を使用すると、予測から大規模な信頼区間を持つ、完全にフラットなラインが得られます。

ただし、毎週または毎月のデータを集計する方がはるかに理にかなっています。それらはシリーズの最初から下にスイープし、その後真ん中で再び増加します。レスプロットと予測パッケージはどちらも、より有意義に見えるものを生成します。

浮気みたいな感じがします。見栄えがよく、実際の妥当性がないため、集約されたバージョンを好むだけですか?

または、移動平均を計算してそれを基礎として使用する方が良いでしょうか?何が受け入れられるかについて自信を持てるほど、この背後にある理論を十分に理解していないと思います

回答:


8

これは、あなたの時系列と、発見/証明したい効果などに完全に依存します。

ここで重要なことは、データにどのような期間があるかということです。データのスペクトルを作成し、データに共通する周波数を確認します。

とにかく、集計値を表示することに決めたときに嘘をつきません。何週間にもわたって発生している影響(たとえば、暑い夏の暴力の増加など)を検討している場合、それは正しいことです。

おそらく、ヒルベルト・ファン変換もご覧ください。これにより、視覚分析に非常に便利な組み込みモード関数が提供されます。


12

S / N比を高めるためにデータを集約することは、予測において非常に一般的です。たとえば、経済学の予測精度に対する時間集計の影響に関するいくつかの論文があります。おそらく、日次データで見られるのは、ノイズに圧倒されている弱い信号ですが、週次および月次データは、より目に見えるより強い信号を示しています。

時間集計を使用するかどうかは、目的が何であるかに完全に依存します。毎日のインシデントの予測が必要な場合は、集計はあまり役に立ちません。発生頻度に対するいくつかの共変量の影響を調査することに興味があり、すべてのデータが毎日利用できる場合、より大きなサンプルサイズを提供し、おそらく検出できるように、おそらく毎日のデータを使用しますより簡単に効果。

予測パッケージを使用しているので、おそらく時系列予測に興味があります。それでは、毎日の予測、毎週の予測、または毎月の予測が必要ですか?答えは、集計が適切かどうかを決定します。


1

あなたが直面している問題(ジレンマ)は、予測を修正するための最適な(または他の方法で良い)サンプリング間隔を選択する問題のようです。まず、ブラウンの有名な本のリンクテキストを参照してください。つまり、「変化に気付かないリスクと、データの固有の変動性と計画を頻繁に改訂するコストとのバランスをとること」です。予測(およびその動機となった決定)を毎日修正する準備ができていない場合、(最も騒々しい)日次データを実際に使用する必要はありません。現代の予測に関する文献ではしばしば失われている重要な点は、予測は意思決定を支援するためにのみ必要であるということです(それらから楽しみを得る方法も知っている場合を除く)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.