一般的な加法ポアソンモデル問題におけるスプラインdfの選択


9

SASを使用したポアソン一般加法モデルを使用して、いくつかの時系列データを近似していPROC GAMます。一般的に言えば、組み込みの一般化された相互検証手順によって、単一のスプラインの少なくとも適切な「開始点」が生成されるようにしてきました。これは、時間の非線形関数と単一のパラメトリック項(1つのI実際に興味があります)。

これまでのところ、私のデータセットの1つを除いて、かなりスムーズに機能しています。そのデータセットには132の観測値があり、GCVは128自由度のスプラインを示唆しています。それは...間違っているようです。大きな過ち。さらに重要なのは、それがまったく安定していないことです。2番目のアプローチを試してみました。「推定値の変更」基準などを使用して、パラメトリック項の推定値が変化しなくなったときに自由度の追加を停止しました。何も変わらない場合はなぜ制御を追加し続けるのですか。

問題は、見積もりがまったく安定していないことです。次の自由度を試しましたが、ご覧のとおり、パラメトリックな用語が乱暴に跳ね返っています。

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

この特定のデータビットに対してdfに関して何を使用する必要があるかについて、私はまったく直感がありません。dfを選択する方法に関する他のアイデアはありますか?スプラインの重要性を見るべきですか?

df = 10とdf = 15の間でさらに調べてみると、df = 12が128で生成された推定値に到達できる最も近いように見えますが、それでも「妥当な自由度」の範囲内です。線形項、切片、単一のパラメトリック項に加えて、かなり飽和したモデルのように感じます。12だけで十分ですか?

2番目の更新として、スムージングをからspline(t)に変更すると、loess(t)より適切に動作するdf推定値が得られます。レススムージングに切り替えるだけですか?


132の観測値を持つデータセットに、カウントとオフセット項が関連付けられていますか?それは、実際には132を超える観測値を持つ重み付けされたデータセットであることを意味していますか?ポアソンRVの平均分散関係のため、カウントが大きいと、「モデルの選択」プロパティが発生する可能性があり、「サンプルサイズが大きい」ために好ましくありません。
AdamO

データセットは、カウントとしてモデル化された132週間のデータ=モデル項+オフセットとしてのlog(person-time)です。カウントが特に高くなることはありませんが、ゼロの数はかなりあります。
Fomite

回答:


5

λλλ

ウッド(2011)も、AICCはあまり提供していないことを示している追加の円滑な機能のために使用される中間ランクベースに低いためGCV上の利益を。

λ

Wood(2011)は、高速かつ安定したREMLとMLの推定手順について説明しています。これは、収束に関して既存のREML(ML)アプローチよりも優れていることを示しています。これらのアイデアはSimonのRmgcvパッケージで利用できます。

Wood(2011)はペイウォールの背後にあるので、滑らかさの選択方法 {PDF} で彼のWebサイトにあるSimonの一連のスライドから取得した同様の画像(AICcの結果はここには表示されません)のコピーを含めます。スライド10の図を以下に示します。

ここに画像の説明を入力してください

λλλ

y=f(x)+ε

@ M.Berkと@BrendenDufaultの両方が言及しているように、GAMに適合する適切な基底次元を選択するという観点から、スプライン基底を設定するとき、ある程度の主観性が必要になる場合があります。しかし、REMLの滑らかさの選択は、Woodの方法を使用したさまざまなGAMアプリケーションでの私の経験においてかなり堅牢であることが証明されています。

Wood、SN(2011)セミパラメトリック一般化線形モデルの高速安定制限最大尤度および限界尤度推定J. Royal Statistical Society B 73(パート1)、3--6。


@EpiGradようこそ。申し訳ありませんが、その時に質問を逃しました。過去1〜2年の間、私はあなたと同じような状況に苦労しており、これに関するSimon Woodの論文や機能の選択を何度も読んでいます。助けてくれる詳細を思い出せてよかった。
Gavin Simpson

3

あなたの最善の策は、平滑化アルゴリズムの外側にあると思います。モデルの節約を検討してください。

あなたはこれをほのめかしていますが、私はそれがあなたの主要な選択基準になるはずだと思います。モデル化されているプロセスの原因/因果関係に基づいて、いくつの「曲がり」が妥当であると思われるかを自問してください。適合したスプラインをplots=components(clm)ステートメントでグラフ化し、適合を視覚的に評価します。おそらく、DFの高いスプラインは、DFの低いスプラインと同様の話をしていますが、より騒々しくしています。その場合は、低DFフィットを選択します。

結局のところ、GAMモデルは探索的であることを目的としています。

自分でgcvオプションを使用したので、ポアソン条件、スパースデータなどでのパフォーマンスについて疑問に思います。シミュレーションの研究がここにあるはずです。


2

私は次の回答を入力しましたが、経験のないポアソン回帰に適用できるかどうかわかりません。多分人々はいくつかのコメントでそれに答えることができます。


個人的には、BWシルバーマン(1985)の「パラメトリック回帰曲線フィッティングへのスプライン平滑化アプローチのいくつかの側面(議論あり)」のアドバイスが好きです。(ここでサブスクリプションなしで利用可能):さまざまな平滑化パラメーターを試して、最も視覚的に魅力的なパラメーターを選択します。

彼が同じ論文で正しく指摘しているように、主観的なアプローチが好まれるかもしれませんが、自動方法の必要性はまだあります。ただし、GCVは滑らかさに欠ける傾向があるため、一般に不適切な選択です。たとえば、Hurvich et al(1998)の「改良された赤池情報量基準を使用したノンパラメトリック回帰における平滑化パラメーターの選択」を参照してください(ここでサブスクリプションなしで入手可能)。同じ論文で、彼らはあなたの問題を軽減するかもしれない新しい基準、小さなサンプルサイズの修正を含む修正されたAICを提案します。AICcに関するウィキペディアの説明は、論文よりも理解しやすいかもしれません。ウィキペディアの記事には、バーナム&アンダーソンからの良いアドバイスも含まれています(つまり、サンプルサイズに関係なく、AICではなくAICcを使用します)。

要約すると、私の提案は、優先順になります:

  1. 視覚的評価を介して手動で平滑化パラメーターを選択する
  2. GCVではなく修正されたAIC(AICc)を使用する
  3. 標準のAICを使用する
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.