タグ付けされた質問 「splines」

スプラインは、多項式パーツから編み合わされた柔軟な関数で、近似または平滑化に使用されます。このタグは、あらゆる種類のスプライン(Bスプライン、回帰スプライン、薄板スプラインなど)用です。

1
GAM vs LOESS vsスプライン
コンテキスト:パラメトリックではない散布図に線を描画したいのでgeom_smooth()、ggplotin を使用していRます。geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.一般化された加法モデルのGAMスタンドを収集し、3次スプラインを使用して自動的に戻ります。 次の認識は正しいですか? レスは、特定の値で応答を推定します。 スプラインは、データ(一般化された加法モデルを構成する)に適合するさまざまな区分的関数を接続する近似であり、3次スプラインはここで使用される特定のタイプのスプラインです。 最後に、スプラインはいつ使用する必要があり、LOESSはいつ使用する必要がありますか?

3
値と1次/ 2次導関数を含むデータにスプラインを適合させるにはどうすればよいですか?
たとえば、位置、速度、加速度の測定値を含むデータセットがあります。すべて同じ「実行」から来ます。線形システムを構築し、それらの測定すべてに多項式を当てはめることができました。 しかし、スプラインでも同じことができますか?これを行う「R」方法とは何ですか? 当てはめたいシミュレーションデータをいくつか示します。 f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1) df <- function(x) 1-x+rnorm(length(x), mean=0, sd=0.3) ddf <- function(x) -1+rnorm(length(x), mean=0, sd=0.6) x_f <- runif(5, 0, 5) x_df <- runif(8, 3, 8) x_ddf <- runif(10, 4, 9) data <- data.frame(type=rep('f'), x=x_f, y=f(x_f)) data <- rbind(data, data.frame(type=rep('df'), x=x_df, y=df(x_df))) data <- rbind(data, …

4
ロジスティック回帰分析で連続独立変数のロジットへの線形性の仮定をどのようにチェックする必要がありますか?
ロジスティック回帰分析における連続予測子変数のロジットへの線形性の仮定と混同しています。単変量ロジスティック回帰分析を使用して潜在的な予測子をスクリーニングしながら、線形関係をチェックする必要がありますか? 私の場合は、多重ロジスティック回帰分析を使用して、参加者間の栄養状態(二分結果)に関連する要因を特定しています。年齢、Charlson併存症スコア、Barthel Indexスコア、握力、GDSスコア、BMIなどの連続変数。最初のステップは、単純なロジスティック回帰を使用して有意な変数をスクリーニングすることです。各連続変数の単純なロジスティック回帰分析中に線形性の仮定を確認する必要がありますか?それとも、最終的な多重ロジスティック回帰モデルで確認するだけですか? さらに、私の理解のために、モデルに入力する前に非線形連続変数を変換する必要があります。変換の代わりに非線形連続変数を分類できますか?

2
GLMおよびGAMのスプライン
スプラインがGLMモデルではなくGAMモデルでのみ利用できるのは間違っていますか?私はこれをしばらく前に聞いたが、これは単なる誤解なのか、それとも何らかの真実があるのだろうか。これがイラストです:

1
多重共線性とスプライン回帰に問題はありますか?
自然(制限付き)3次スプラインを使用する場合、作成される基底関数は非常に共線的であり、回帰で使用すると、非常に高いVIF(分散インフレーション係数)統計を生成し、多重共線性を示します。予測のためにモデルのケースを検討している場合、これは問題ですか?スプライン構造の性質により、常にそうなるようです。 Rの例を次に示します。 library(caret) library(Hmisc) library(car) data(GermanCredit) spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable dat<-data.frame(cbind(spl_mat,class)) cor(spl_mat) OUTPUT: x x 1.0000000 0.9386463 0.9270723 0.9109491 0.9386463 1.0000000 0.9994380 0.9969515 0.9270723 0.9994380 1.0000000 0.9989905 0.9109491 0.9969515 0.9989905 1.0000000 mod<-glm(class~.,data=dat,family=binomial()) #model vif(mod) #massively high OUTPUT: x V2 V3 V4 …

1
3次スプラインを使用したlm()フィットからの出力を回帰式に変換する方法
いくつかのコードと出力があり、モデルを構築したいと思います。この出力を使用してモデルを構築する方法がわかりません: require("splines") x <- c(0.2, 0.23, 0.26, 0.29, 0.33, 0.46, 0.53 ) y <- c(0.211, 0.2026, 0.2034, 0.2167, 0.2177, 0.19225, 0.182) fit <- lm(y ~ ns(x,3)) summary(fit) ns()自然な3次スプラインのBスプライン基底行列を生成することに注意してください。したがって、このモデルyはx、3自由度を使用するBスプラインに対して回帰します。そのようなモデルの方程式はどのようになりますか?
12 r  splines 

1
スプライン/スムーズ回帰で新しいデータを予測する方法
予測モデルにスムース/スプラインを使用するときに、新しいデータの予測がどのように行われるかについての概念的な説明を誰かが提供できますか?たとえば、R gamboostのmboostパッケージでp-スプラインを使用して作成されたモデルがある場合、新しいデータの予測はどのように行われますか?トレーニングデータから何が使用されますか? 独立変数xの新しい値があり、yを予測するとします。モデルのトレーニング時に使用されるノットまたはdfを使用して、この新しいデータ値にスプライン作成の式が適用され、トレーニングされたモデルの係数が適用されて予測を出力しますか? これはRの例です。新しいデータの平均値として899.4139を出力するために、概念的に何を予測しているのですかmean_radius = 15.99? #take the data wpbc as example library(mboost) data(wpbc) modNew<-gamboost(mean_area~mean_radius, data = wpbc, baselearner = "bbs", dfbase = 4, family=Gaussian(),control = boost_control(mstop = 5)) test<-data.frame(mean_radius=15.99) predict(modNew,test)

1
制限付き3次スプラインとペナルティ付きスプラインの違いは何ですか?
さまざまな回帰問題でのスプラインの使用について多く読んでいます。一部の書籍(Hodges Richly Parrameterized Linear Modelsなど)は、ペナルティ付きスプラインを推奨しています。その他(たとえば、ハレル回帰モデリング戦略)は、制限付き3次スプラインを選択します。 実際、これらはどのように異なりますか?多くの場合、どちらか一方を使用した場合と実質的に異なる結果が得られますか?どちらか一方に特別な利点はありますか?

5
どうしてもビニングを避けなければならないのですか?
だから私はなぜビニングが常に避けられるべきかについてのいくつかの投稿を読んだ。その主張の人気のあるリファレンスはこのリンクです。 主な逃避は、ビニングポイント(またはカットポイント)がかなり恣意的であることと、その結果として生じる情報の損失であり、そのスプラインが優先されることです。 ただし、私は現在、Spotify APIを使用しています。SpotifyAPIには、いくつかの機能に対する継続的な信頼度の測定値が多数あります。 1つの機能「instrumentalness」を参照すると、参照は次のように述べています。 トラックにボーカルが含まれていないかどうかを予測します。「Ooh」と「aah」のサウンドは、この文脈ではインストゥルメンタルとして扱われます。ラップや話し言葉のトラックは明らかに「ボーカル」です。インストルメンタル値が1.0に近いほど、トラックにボーカルコンテンツが含まれていない可能性が高くなります。0.5を超える値は、インストゥルメンタルトラックを表すことを目的としていますが、値が1.0に近づくほど信頼性が高くなります。 データの非常に左に歪んだ分布を考えると(サンプルの約90%がかろうじて0を超えているため、この機能を2つのカテゴリ機能に変換するのが賢明であることがわかりました。 "(0.5未満の値を持つすべてのサンプル)。 これは間違っていますか?そして、私の(継続的な)データのほぼすべてが単一の値を中心に展開している場合、代替手段は何でしょうか?スプラインについて私が理解していることから、それらは分類の問題(私がやっていること)でも機能しません。

1
周期的データに適合する周期的スプライン
この質問へのコメントで、ユーザー@whuberは、定期的なデータに適合するために定期的なバージョンのスプラインを使用する可能性を挙げました。この方法、特にスプラインを定義する方程式、および実際にそれらを実装する方法について詳しく知りたいです(私はほとんどがRユーザーですが、必要に応じて、MATLABまたはPythonを使用して実行できます)。また、これは「便利」ですが、三角多項式フィッティングに関して考えられる長所/短所について知ることは素晴らしいことです。これは、通常、この種のデータを処理する方法です(応答が非常に滑らかでない場合を除きます)。その場合、定期的なカーネルでガウスプロセスに切り替えます)。

1
スムーズスプライン/レス回帰のp値を見つけるにはどうすればよいですか?
いくつかの変数があり、それらの間の非線形関係を見つけることに興味があります。そこで、私はいくつかのスプラインまたはレスをフィットさせ、素敵なプロットを印刷することにしました(以下のコードを参照)。しかし、私はまた、関係がランダム性の問題である可能性がどのくらいあるかという考えを与えるいくつかの統計を取得したいと考えています...たとえば、線形回帰の場合のように、全体的なp値が必要です。言い換えると、私のコードは曲線を任意のデータに適合させるため、適合した曲線が意味を成しているかどうかを知る必要があります。 x <- rnorm(1000) y <- sin(x) + rnorm(1000, 0, 0.5) cor.test(x,y) plot(x, y, xlab = xlab, ylab = ylab) spl1 <- smooth.spline(x, y, tol = 1e-6, df = 8) lines(spl1, col = "green", lwd = 2) spl2 <- loess(y ~ x) x.pr <- seq(min(x), max(x), length.out = 100) lines(x.pr, …
10 r  regression  splines  loess 

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
スプライン項と非スプライン項の相互作用はどういう意味ですか?
lm(y~a*b)R構文でaがバイナリ変数でb数値変数であるのようなものでデータを近似する場合、a:b相互作用項はy~bat a= 0とat a= 1の勾配の差です。 ここで、との関係が曲線的であるyとしましょうb。私は今収まる場合はlm(y~a*poly(b,2))、その後a:poly(b,2)1の変化の変化であるy~bのレベルを条件とa上記のように、とa:poly(b,2)2の変化であるy~b^2のレベルを条件a。少し手を振る必要がありますが、これらの相互作用係数のいずれかがゼロと大幅に異なる場合、それはa、垂直方向の変位だけでyなく、ピークの位置とy~b+b^2曲線のピークへのアプローチの急角度にも影響を与えることを意味する可能性があります。 私が合うならどうlm(y~a*bs(b,df=3))ですか?どのように私は解釈しないa:bs(b,df=3)1、a:bs(b,df=3)2とa:bs(b,df=3)3用語を?これらは、3つのセグメントのそれぞれにy起因するスプラインからの垂直変位aですか?

2
回帰におけるB-スプラインVS高次多項式
具体的な例や課題は考えていません。私はbスプラインを使うのが初めてで、この関数を回帰のコンテキストでよりよく理解したかったのです。 応答変数といくつかの予測子x 1、x 2、との関係を評価したいとします。。。、x p。予測子には、いくつかの数値変数といくつかのカテゴリカル変数が含まれています。yyyx1,x2,...,xpx1,x2,...,xpx_1, x_2,...,x_p 回帰モデルを当てはめた後、数値変数の1つ、たとえばが有意であるとしましょう。その後の論理的ステップは、オーバーフィッティングなしで関係を適切に説明するために、高次多項式、たとえばx 2 1とx 3 1が必要かどうかを評価することです。x1x1x_1x21x12x_1^2x31x13x_1^3 私の質問は: どの時点で、bスプラインまたは単純な高次多項式を選択しましたか。例:R: y ~ poly(x1,3) + x2 + x3 対 y ~ bs(x1,3) + x2 + x3 プロットを使用して、これら2つの間の選択を通知する方法と、プロットから本当に明確でない場合はどうなるか(例:大量のデータポイントが原因) とx 3の間の双方向相互作用項をどのように評価しますかx2x2x_2x3x3x_3 上記の方法は、モデルの種類によってどのように変わりますか 高次多項式を使用せず、常にBスプラインをフィッティングして高い柔軟性にペナルティを課すことを検討しますか?

1
カルマンフィルターと平滑化スプライン
Q:スプラインを平滑化する代わりに状態空間モデリングとカルマンフィルターを使用するのが適切なデータはどれですか?2つの間に同等の関係はありますか? これらの方法がどのように組み合わされるかについて、ある程度の高レベルの理解を得ようとしています。Johnstoneの新しいGaussian Estimation:Sequence and Multiresolution Modelsを閲覧しました。意外なことに、状態空間モデルとカルマンフィルタリングについては1つも言及されていません。なぜそこにないのですか?これは、この種の問題に対する最も標準的なツールではありませんか?代わりに、焦点はスプラインの平滑化とウェーブレットしきい値処理にありました。私は今とても混乱しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.