2
スプラインはデータをオーバーフィットしていますか?
私の問題:最近、統計学者に会いましたが、スプラインはデータの探索にのみ有用であり、オーバーフィットの影響を受けるため、予測には役立ちません。彼は単純な多項式で探索することを好みました...私はスプラインの大ファンなので、これは私の直感に反するので、これらの引数がどのくらい有効であるか、そしてアンチスプラインの大規模なグループがある場合、活動家はいますか? 背景:モデルを作成するときは、フランクハレルの回帰モデリング戦略(1)を追います。彼は、制限された3次スプラインが連続変数を探索するための有効なツールであると主張します。彼はまた、多項式はしきい値、対数などの特定の関係のモデリングが不十分であると主張しています(2)。モデルの線形性をテストするために、彼はスプラインの分散分析テストを提案しています。 H0:β2=β3=…=βk−1=0H0:β2=β3=…=βk−1=0H_0: \beta_2 = \beta_3 = … = \beta_{k-1} = 0 私はスプラインでオーバーフィッティングすることをグーグルで調べましたが、それほど便利ではありませんでした(あまり多くのノットを使用しないことに関する一般的な警告は別として)。このフォーラムでは、スプラインモデリング、Kolassa、Harrell、gungが優先されているようです。 多項式についてのブログ投稿を1つ見つけました。これは、多項式の予測について語る過剰適合の悪魔です。投稿はこれらのコメントで終わります: ここで紹介する例はある程度不正です—多項式回帰は非常にロバストでないことが知られています。実際には、多項式よりもスプラインを使用する方がはるかに優れています。 ここで、この例でスプラインがどのように機能するかを確認するように促されました。 library(rms) p4 <- poly(1:100, degree=4) true4 <- p4 %*% c(1,2,-6,9) days <- 1:70 set.seed(7987) noise4 <- true4 + rnorm(100, sd=.5) reg.n4.4 <- lm(noise4[1:70] ~ poly(days, 4)) reg.n4.4ns <- lm(noise4[1:70] ~ ns(days,4)) dd <- datadist(noise4[1:70], …