スムージング-使用する場合と使用しない場合


18

William Briggsのブログにはかなり古い記事があり、データを平滑化し、その平滑化されたデータを分析に落とし込む落とし穴を調べています。キー引数は次のとおりです。

狂気の瞬間に、スムーズな時系列データを実行し、それを他の分析への入力として使用すると、自分をだます確率が劇的に増加します!これは、スムージングがスプリアス信号を誘発するためです。これは、他の分析方法では本物に見える信号です。どんなに最終結果を確信していても!

しかし、私はいつスムーズにすべきか、そうでないべきかについて包括的な議論を見つけるのに苦労しています。

その平滑化されたデータを他の分析への入力として使用する場合にのみ平滑化することに眉をひそめていますか、または平滑化が推奨されない他の状況がありますか?逆に、平滑化が推奨される状況はありますか?


1
時系列分析のほとんどのアプリケーションは、そのように記述されていなくても、ある種の平滑化です。スムージングは​​、探索または要約デバイスとして(一部の分野では、メインまたは唯一の方法でも)、または何らかの目的で迷惑または二次的な関心と見なされる機能を削除するために使用できます。
ニックコックス

4
免責事項:引用されたブログ投稿全体を読んでいません。基本的なタイプミス(「タイムシリーズ」、「モンテキャロル」)をすり抜けることができず、そのトーンとスタイルは魅力的ではありませんでした。しかし、私は時系列分析の原則、または一般的な統計を、だれかのブログから学ぶことをお勧めしません。
ニックコックス

@NickCox Agreed、特に粉砕するtoがあるように見えるブログからではありません。
Hong大井

@HongOoiはい!私はコメントの下書きからいくつかの選択フレーズを削除しましたが、それらはブログ自体と同じように考えられているように思われます。
ニックコックス

1
ブリッグスが書いたすべてのものを一粒の塩で取ります。
モモ

回答:


16

指数平滑法は、因果関係のない時系列予測で使用される古典的な手法です。単純な予測でのみ使用し、サンプル内の平滑化近似を別のデータマイニングまたは統計アルゴリズムへの入力として使用しない限り、ブリッグスの批判は適用されません。(したがって、Wikipediaが言うように、「プレゼンテーション用の平滑化されたデータを生成するために」それを使用することに懐疑的です。

これは、指数平滑法の教科書の紹介です。

そして、ここに(10歳ですが、まだ関連する)レビュー記事があります。


編集:ブリッグスの批評の妥当性については疑いがあるようです。おそらくパッケージングにいくらか影響を受けています。私はブリッグスの口調が研ぎ澄まされていることに完全に同意します。しかし、なぜ彼が重要だと思うのかを説明したいと思います。

以下では、それぞれ100個の観測値からなる10,000組の時系列をシミュレートしています。すべてのシリーズはホワイトノイズであり、相関関係はまったくありません。したがって、標準の相関テストを実行すると、[0,1]に均一に分布するp値が得られます。そのまま(左下のヒストグラム)。

ただし、最初に各系列を平滑化し、平滑化されたデータに相関テストを適用するとします。驚くべきことがあります。データから多くの変動を取り除いたため、p値が非常に小さくなります。相関テストには大きな偏りがあります。したがって、ブリッグスが言っているように、元のシリーズとの関連についてはあまりにも確信が持てます。

予測に平滑化されたデータを使用するかどうか、つまり平滑化が有効な場合、または分析アルゴリズムの入力としてそれを含めるかどうか、その場合は変動性を除去することでデータが保証されるよりも高い確実性をシミュレートするかどうかに疑問がかかります。入力データのこの不当な確実性は最終結果に引き継がれ、説明する必要があります。そうしないと、すべての推論が確実になりすぎます。(もちろん、予測に「膨張した確実性」に基づいたモデルを使用すると、予測間隔が短くなりすぎます。)

n.series <- 1e4
n.time <- 1e2

p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
    A <- rnorm(n.time)
    B <- rnorm(n.time)
    p.corr[ii] <- cor.test(A,B)$p.value
	p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}

par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")

p値


1
生データも表示せずにスムーズが表示されないという優れた時系列分析の公理と考えます。
ニックコックス

1

平滑化はモデリング分析には不適切であると主張することは、平均化誤差が他の方法よりも高いことを非難します。平均二乗誤差またはMSEは、3つの項、「バイアス」と呼ばれる値の二乗、分散、およびいくつかの既約誤差に分解できます。(これは以下の引用に示されています。)過度に平滑化されたモデルは、たとえ分散が低くても、バイアスが高く、粗すぎるモデルは分散が高く、バイアスが低くなります。

これについては哲学的なことはまったくありません。これは数学的な特性です。ノイズの特性やシステムの特性には依存しません。

見る:

http://scott.fortmann-roe.com/docs/BiasVariance.html

https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf

http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (これには分解の派生があります。)

http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf(Blei は異なる方法で同じことを行い、予測しようとすると何が起こるかをもたらします。)

古典的な統計は、ほとんど常に偏りのない推定値を主張していました。1955年、スタンフォードの統計学者Charles Steinは、重要な特別な場合、特にJAMES-STEIN ESTIMATORSと呼ばれるようになったMSEが低い不偏推定量の組み合わせがあることを示しました。ブラッドリー・エフロンは、洞察力でこの革命について非常に親しみやすいテキストを書きました:http : //statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.