スプライン/スムーズ回帰で新しいデータを予測する方法


11

予測モデルにスムース/スプラインを使用するときに、新しいデータの予測がどのように行われるかについての概念的な説明を誰かが提供できますか?たとえば、R gamboostmboostパッケージでp-スプラインを使用して作成されたモデルがある場合、新しいデータの予測はどのように行われますか?トレーニングデータから何が使用されますか?

独立変数xの新しい値があり、yを予測するとします。モデルのトレーニング時に使用されるノットまたはdfを使用して、この新しいデータ値にスプライン作成の式が適用され、トレーニングされたモデルの係数が適用されて予測を出力しますか?

これはRの例です。新しいデータの平均値として899.4139を出力するために、概念的に何を予測しているのですかmean_radius = 15.99?

#take the data wpbc as example
library(mboost)
data(wpbc)

modNew<-gamboost(mean_area~mean_radius, data = wpbc, baselearner = "bbs", dfbase = 4, family=Gaussian(),control = boost_control(mstop = 5))
test<-data.frame(mean_radius=15.99)
predict(modNew,test)

質問:これは補間(ドメインの内部)または外挿についてですか?それらは異なる方法で処理されます。また、これらは「基本」機能に大きく依存しています。GLMで期待されるような放射基底関数は、特にテールを超えて、いくつかの高次の多項式基底とは大幅に異なる動作をします。
EngrStudent 2013

EngrStudent、私はどちらの場合に何が起こるかを概念的に理解することに興味があります。私は(たぶん間違って)プロセスは両方のケースで同じであるが、結果の値は使用される基底関数によって異なり、異なると仮定しました(ただし、プロセスは同じでした)
B_Miner

多項式基底には、「ギブス効果」と呼ばれることもある現象があります。標準正規分布の一様なサンプルであるデータを10次多項式のようなものに当てはめ、次に補間の品質を見ると、両端で勾配が高く、補間が非常に悪いことがわかります。多項式ベースでは、内挿よりも低次の外挿を使用するのが通例です。現象を定義する「物理学」を知らなければ、外挿はしばしば線形になります。私はMatLabを使用しています:mathworks.com/help/matlab/ref/interp1.html
EngrStudent 2013

回答:


10

予測の計算方法は次のとおりです。

mean_radiusmboostmboostBjバツ;j=124バツ=

fバツ=Σj24Bjバツθj
fバツθjBjバツ

θ^jBj;j=124バツew

f^バツew=Σj24Bjバツewθ^j

メートルstop1メートルstop

bbs(rnorm(100))$dpp(rep(1,100))$predict

そこから探索してください。例えば、

with(environment(bbs(rnorm(100))$dpp(rep(1,100))$predict), newX)

呼び出し

with(environment(bbs(rnorm(100))$dpp(rep(1,100))$predict), Xfun)

Bjバツew


これは素晴らしい。これらの関数が何をするのかを大まかに説明していただけませんか。新しいデータを「スコアリング」するために必要なのは、係数のセット、トレーニング時に使用されるノットの場所、およびスプラインの式であることは本当ですか?新しいデータのスコアリングに必要な他のトレーニングデータはありますか(KNNモデルなど)?
B_Miner 2013

1
必要な情報は、使用するスプライン基準のタイプによって異なります。Bスプラインの場合、Bスプラインの順序(2次/ 3次など)とノットの位置を知るだけで済みます。B-スプラインの「式」は再帰、Cox-de Boor再帰です。回答に半文を追加しました。
ファビアン、2013
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.