たとえば、スプラインの用語は、キュービックスプラインの種類に応じて「キュービックスプライン」を使用する場合の意味とまったく同じように、混乱する可能性があります(少なくとも私はそう思います)。たとえば、3次平滑化スプラインと3次(ペナルティ付き)回帰スプラインの両方を持つことができます。
以下にスケッチするのは、Wood(2017)のセクション5.1.2および5.2からの抜粋です。
補間スプライン sayは、スプラインが2次導関数に連続するように結合された3次多項式のセクションで構成される関数を介して観測y iを補間するため、g (x i)= y iを設定します。g(x私)g(x私)= y私y私
3次平滑化スプラインは、データへの適合と滑らかな関数の生成のバランスをとることを目的としています。目的は、スプラインの補間で発生するデータを補間することではありません。むしろセットより立方平滑化スプラインとして作用し、nは最小となるように推定される自由パラメータ(ウッド、2017)g(x私)= y私ん
Σi = 1ん{ y私− g(x私)}2+ λ ∫g" "(x )2dバツ
ここで、最初の部分はデータへの適合の尺度であり、2番目の部分はウィグリネスに対するペナルティです(積分は、曲率またはウィグリネスの尺度としてのスプラインの2次導関数の二乗を合計したもので、曲線の速度勾配の変化)。ウィグリーネスは複雑さと考えることができるため、関数には過度に複雑なスムースに対するペナルティが含まれます。
すべての可能な関数fの 3次平滑化スプライン、上記の基準を最小化する関数であることを示すことができます(証明はWood、2017、セクション5.1.2 pp。198に記載されています)。g(x )f
内挿スプラインと同様に、3次平滑化スプラインには、各観測ペア、y iにノットがあります。先に、平滑化スプラインにはn個の自由パラメーターがあると述べました。データと同じ数のパラメータがあります。しかし、λの効果は、波状の滑らかさに対するペナルティであり、n自由度を使用した場合に想定されるよりもはるかに滑らかなスプラインを生成します(Wood 2017)。バツ私y私んλん
これは、スプラインを平滑化する側の大きな欠点です。データと同じ数のパラメーターを推定する必要がありますが、過度に複雑な(ぎこちない)近似に対するペナルティのため、これらのパラメーターの多くの効果は一般に低くなります。
これをバランスさせることは、選択の余地がないため、平滑化スプラインでのノットの選択が考慮されるという事実です。
ペナルティ付き回帰スプライン設定に移ると、ノットを配置する場所を選択できますが、使用するノットの数を選択できます。これが有用なトレードオフであるかどうか、どのようにいくつ、どこに配置するかを決定する必要がある場合でも、ノットの数を減らしてスプラインをフィットさせることが有益であるかどうかをどのように判断できますか?
バツ私kんλん スムージングスプラインによって表される最適なパフォーマンスに近づけるため(Wood 2017から要約)。
k − 1バツバツバツバツバツ
バツ1 i、x2 iバツ1バツ2
参考文献
Wood、SN2016。微分に基づくペナルティと不均一に分散されたデータのテンソル積平滑化によるPスプライン。統計 計算。1-5。doi:10.1007 / s11222-016-9666-x(オープンアクセス)
ウッド、SN2017。一般化された加法モデル:Rの紹介、第2版、CRCプレス。