予測モデルにスムース/スプラインを使用するときに、新しいデータの予測がどのように行われるかについての概念的な説明を誰かが提供できますか?たとえば、R gamboost
のmboost
パッケージでp-スプラインを使用して作成されたモデルがある場合、新しいデータの予測はどのように行われますか?トレーニングデータから何が使用されますか?
独立変数xの新しい値があり、yを予測するとします。モデルのトレーニング時に使用されるノットまたはdfを使用して、この新しいデータ値にスプライン作成の式が適用され、トレーニングされたモデルの係数が適用されて予測を出力しますか?
これはRの例です。新しいデータの平均値として899.4139を出力するために、概念的に何を予測しているのですかmean_radius = 15.99?
#take the data wpbc as example
library(mboost)
data(wpbc)
modNew<-gamboost(mean_area~mean_radius, data = wpbc, baselearner = "bbs", dfbase = 4, family=Gaussian(),control = boost_control(mstop = 5))
test<-data.frame(mean_radius=15.99)
predict(modNew,test)
質問:これは補間(ドメインの内部)または外挿についてですか?それらは異なる方法で処理されます。また、これらは「基本」機能に大きく依存しています。GLMで期待されるような放射基底関数は、特にテールを超えて、いくつかの高次の多項式基底とは大幅に異なる動作をします。
—
EngrStudent 2013
EngrStudent、私はどちらの場合に何が起こるかを概念的に理解することに興味があります。私は(たぶん間違って)プロセスは両方のケースで同じであるが、結果の値は使用される基底関数によって異なり、異なると仮定しました(ただし、プロセスは同じでした)
—
B_Miner
多項式基底には、「ギブス効果」と呼ばれることもある現象があります。標準正規分布の一様なサンプルであるデータを10次多項式のようなものに当てはめ、次に補間の品質を見ると、両端で勾配が高く、補間が非常に悪いことがわかります。多項式ベースでは、内挿よりも低次の外挿を使用するのが通例です。現象を定義する「物理学」を知らなければ、外挿はしばしば線形になります。私はMatLabを使用しています:mathworks.com/help/matlab/ref/interp1.html。
—
EngrStudent 2013