集計の下で保持される統計情報は何ですか?


12

ノイズの多い長い高解像度の時系列がある場合、何が起こっているのかをよりよく理解し、効果的にいくつかを削除するために、データを低い解像度(たとえば、毎日から毎月の値)に集約するのが理にかなっています雑音。

別の変数での線形回帰のを含む統計を集計データに適用する論文を少なくとも1つ見ました。それは有効ですか?ノイズが減少するため、平均化プロセスは結果をかなり変更すると考えていたでしょう。r2

一般に、集計された時系列データに適用できる統計とそうでない統計はありますか?もしそうなら、どれ?多分線形結合であるもの?


関連して、生態学的な誤りを見てください。
アンディW

1
@cbeleitesからのコメントに関しては、ここには理論的な答えがあると思います-線形結合が保持されるというあなたの提案の拡張です。ただし、実際のアプリケーションの用語では、アプローチの有効性に関する一般的な結論を引き出すことは非常に困難であり、特定の例が必要になります。
ジョナサン

回答:


6

見出しにあるような質問は、有用な方法で答えるには広すぎるため、問題の集計方法と統計の両方に依存する可能性が高いためだと思います。

  • これは「平均」にも当てはまります。信号の形状と強度を維持しようとしていますか(例:Savitzky-Golayフィルター)、または信号の下の領域を維持しようとしていますか(例:黄土)。

  • ノイズ関連の統計は明らかに影響を受けます。これは通常、集計の目的です。

集計データに統計を適用する論文を少なくとも1つ見ました[...]それは有効ですか?ノイズが減少するため、平均化プロセスは結果をかなり変更すると考えていたでしょう。

この変更は、おそらく集約の目的です。

一般に、データに対して多くのことを行うことができますが、必要なことは

  • あなたが何をしているのか(そしてできればそれをする理由も)
  • 結果のモデルの品質を表示します(独立したデータでテストします)


n


5

Ytバツτm

Yt=α+βバツ¯t+あなたはt1

バツ¯t=1mh=0m1バツtmh

tバツ30t1+1バツ30t

Yt=α+βバツ¯tw+あなたはt2

バツtw=h=1m1whバツtmh

whwh=ghαgα

モデル(2)はモデル(1)を入れ子にするため、という仮説をテストできます。wh=1m

非回帰設定では、集計が時系列のプロパティを変更できることを示す結果があります。たとえば、短期メモリを持つAR(1)プロセスを集約する場合(時系列の2つの観測値間の相関は、それらの間の距離が大きくなるとすぐに消滅します)、長期メモリを持つプロセスを取得できます。

したがって、答えを要約すると、集計データに対する統計の適用の妥当性は統計的な問題であるということです。モデルに応じて、有効なアプリケーションであるかどうかの仮説を立てることができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.