さまざまな回帰問題でのスプラインの使用について多く読んでいます。一部の書籍(Hodges Richly Parrameterized Linear Modelsなど)は、ペナルティ付きスプラインを推奨しています。その他(たとえば、ハレル回帰モデリング戦略)は、制限付き3次スプラインを選択します。
実際、これらはどのように異なりますか?多くの場合、どちらか一方を使用した場合と実質的に異なる結果が得られますか?どちらか一方に特別な利点はありますか?
さまざまな回帰問題でのスプラインの使用について多く読んでいます。一部の書籍(Hodges Richly Parrameterized Linear Modelsなど)は、ペナルティ付きスプラインを推奨しています。その他(たとえば、ハレル回帰モデリング戦略)は、制限付き3次スプラインを選択します。
実際、これらはどのように異なりますか?多くの場合、どちらか一方を使用した場合と実質的に異なる結果が得られますか?どちらか一方に特別な利点はありますか?
回答:
私の読書から、あなたが私たちに比較するように頼む2つの概念は全く異なる獣であり、リンゴとオレンジのような比較を必要とするでしょう。これにより、多くの質問がいくぶん意味のないものになります—理想的には(RCSの基礎に必要な形式でウィグリネスペナルティを書き込めると仮定して)、ペナルティ付き制限付き3次回帰スプラインモデルを使用します。
RCSを使用したモデル選択では、通常、ノットの数とその位置を選択する必要があります。前者は、結果のスプラインの波状または複雑さを制御します。モデルフィッティング時に推定係数を正則化するための追加の手順がない限り、ノットの数はスプラインの複雑さを直接制御します。
これは、ユーザーが1つ以上のRCS項を含むモデルを推定するときに克服すべきいくつかの問題があることを意味します。
RCS用語自体では、これらの問題を解決するためにユーザーの介入が必要です。
ここで、はペナルティマトリックスで、はモデル係数です。次に、係数値は罰則付き対数尤度を最大化することが見出されている ceriterion
ここで、はモデルの対数尤度であり、は滑らかさパラメーターです。これは、スプラインのウィグリネスにペナルティを課す度合いを制御します。
ペナルティ付き対数尤度はモデル係数の観点から評価できるため、このモデルのフィッティングは、最適な検索中に係数を更新しながら最適値を見つける際に効果的に問題になります。
は、交差検定、一般化交差検定(GCV)、限界尤度または制限限界尤度基準を使用して選択できます。後者の2つは、スプラインモデルを混合効果モデルとして効果的にリキャストします(基底の完全に滑らかな部分は固定効果になり、基底の波状の部分はランダム効果になり、滑らかさパラメーターはランダム効果の分散項に反比例します)、これはホッジスが彼の本で検討していることです。
なぜこれが使用するノットの数の問題を解決するのですか?まあ、それは一種のそれだけを行います。これにより、すべての一意のデータポイント(スムージングスプライン)でノットを必要としないという問題が解決されますが、使用するノットまたは基底関数の数を選択する必要があります。ただし、ペナルティは係数を縮小するため、真の関数またはそれに近い近似を含めるために必要であると考えるのと同じ大きさの基本次元を選択することで回避でき、次に、推定されたスプラインの最終的なゆらぎをペナルティに制御させます。つまり、ペナルティによって削除または制御されるベースで利用可能な余分な潜在的なウィグリネスがあります。
ペナルティ付き(回帰)スプラインとRCSはまったく異なる概念です。RCS基底とそれに関連する2次形式のペナルティを作成し、ペナルティ付き回帰スプラインモデルからのアイデアを使用してスプライン係数を推定するのを止めるものは何もありません。
RCSは、スプライン基準の作成に使用できる基準の1種類にすぎません。ペナルティ付き回帰スプラインは、関連するウィグリネスペナルティを持つ1つ以上のスプラインを含むモデルを推定する1つの方法です。
はい、ある程度、薄板スプライン(TPS)ベースで。TPS基底には、一意のデータ値と同じ数の基底関数があります。Wood(2003)が示したのは、TPS基底関数の固有分解を使用してThin Plate Regression Spline(TPRS)基底を作成でき、最初の最大の発言だけを保持できることです。あなたはまだを指定する必要があります、使用する基底関数の数ですが、選択は、一般的に、近似関数がどれぐらいぐらい期待できるか、およびどれだけの計算ヒットを受け取るかによって決まります。ノットの場所を指定する必要もありません。ペナルティによって係数が縮小されるため、ノットの数が異なるペナルティなしモデルが1つしかないため、モデル選択の問題を回避できます。
物事をより複雑にするために、Pスプライン(Eilers&Marx、1996)と呼ばれるタイプのスプライン基準があり、しばしば「ペナルティ」と解釈されます。PスプラインはBスプラインベースで、差分ペナルティがモデル係数に直接適用されます。通常の使用では、Pスプラインペナルティは隣接するモデル係数間の差の2乗にペナルティを課します。これにより、ウィグリネスにペナルティが課されます。Pスプラインはセットアップが非常に簡単で、結果としてスパースペナルティマトリックスがまばらになり、MCMCベースのベイジアンモデルでのスプライン項の推定に非常に対応しやすくなります(Wood、2017)。
アイラーズ、PHC、BDマルクス。1996.-スプラインとペナルティによる柔軟な平滑化。統計 サイエンス。
Wood、SN2003。薄板回帰スプライン。JR Stat。Soc。シリーズB統計 Methodol。65:95–114。doi:10.1111 / 1467-9868.00374
ウッド、SN2017。一般化された加法モデル:Rの紹介、第2版、CRCプレス。