指数平滑法は、因果関係のない時系列予測で使用される古典的な手法です。単純な予測でのみ使用し、サンプル内の平滑化近似を別のデータマイニングまたは統計アルゴリズムへの入力として使用しない限り、ブリッグスの批判は適用されません。(したがって、Wikipediaが言うように、「プレゼンテーション用の平滑化されたデータを生成するために」それを使用することに懐疑的です。
これは、指数平滑法の教科書の紹介です。
そして、ここに(10歳ですが、まだ関連する)レビュー記事があります。
編集:ブリッグスの批評の妥当性については疑いがあるようです。おそらくパッケージングにいくらか影響を受けています。私はブリッグスの口調が研ぎ澄まされていることに完全に同意します。しかし、なぜ彼が重要だと思うのかを説明したいと思います。
以下では、それぞれ100個の観測値からなる10,000組の時系列をシミュレートしています。すべてのシリーズはホワイトノイズであり、相関関係はまったくありません。したがって、標準の相関テストを実行すると、[0,1]に均一に分布するp値が得られます。そのまま(左下のヒストグラム)。
ただし、最初に各系列を平滑化し、平滑化されたデータに相関テストを適用するとします。驚くべきことがあります。データから多くの変動を取り除いたため、p値が非常に小さくなります。相関テストには大きな偏りがあります。したがって、ブリッグスが言っているように、元のシリーズとの関連についてはあまりにも確信が持てます。
予測に平滑化されたデータを使用するかどうか、つまり平滑化が有効な場合、または分析アルゴリズムの入力としてそれを含めるかどうか、その場合は変動性を除去することでデータが保証されるよりも高い確実性をシミュレートするかどうかに疑問がかかります。入力データのこの不当な確実性は最終結果に引き継がれ、説明する必要があります。そうしないと、すべての推論が確実になりすぎます。(もちろん、予測に「膨張した確実性」に基づいたモデルを使用すると、予測間隔が短くなりすぎます。)
n.series <- 1e4
n.time <- 1e2
p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
A <- rnorm(n.time)
B <- rnorm(n.time)
p.corr[ii] <- cor.test(A,B)$p.value
p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}
par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")