SASを使用したポアソン一般加法モデルを使用して、いくつかの時系列データを近似していPROC GAM
ます。一般的に言えば、組み込みの一般化された相互検証手順によって、単一のスプラインの少なくとも適切な「開始点」が生成されるようにしてきました。これは、時間の非線形関数と単一のパラメトリック項(1つのI実際に興味があります)。
これまでのところ、私のデータセットの1つを除いて、かなりスムーズに機能しています。そのデータセットには132の観測値があり、GCVは128自由度のスプラインを示唆しています。それは...間違っているようです。大きな過ち。さらに重要なのは、それがまったく安定していないことです。2番目のアプローチを試してみました。「推定値の変更」基準などを使用して、パラメトリック項の推定値が変化しなくなったときに自由度の追加を停止しました。何も変わらない場合はなぜ制御を追加し続けるのですか。
問題は、見積もりがまったく安定していないことです。次の自由度を試しましたが、ご覧のとおり、パラメトリックな用語が乱暴に跳ね返っています。
DF: Parametric Estimate:
1 -0.76903
2 -0.56308
3 -0.47103
4 -0.43631
5 -0.33108
6 -0.1495
7 0.0743
8 0.33459
9 0.62413
10 0.92161
15 1.88763
20 1.98869
30 2.5223
40-60 had convergence issues
70 7.5497
80 7.22267
90 6.71618
100 5.83808
110 4.61436
128 1.32347
この特定のデータビットに対してdfに関して何を使用する必要があるかについて、私はまったく直感がありません。dfを選択する方法に関する他のアイデアはありますか?スプラインの重要性を見るべきですか?
df = 10とdf = 15の間でさらに調べてみると、df = 12が128で生成された推定値に到達できる最も近いように見えますが、それでも「妥当な自由度」の範囲内です。線形項、切片、単一のパラメトリック項に加えて、かなり飽和したモデルのように感じます。12だけで十分ですか?
2番目の更新として、スムージングをからspline(t)
に変更すると、loess(t)
より適切に動作するdf推定値が得られます。レススムージングに切り替えるだけですか?