タグ付けされた質問 「splines」

スプラインは、多項式パーツから編み合わされた柔軟な関数で、近似または平滑化に使用されます。このタグは、あらゆる種類のスプライン(Bスプライン、回帰スプライン、薄板スプラインなど)用です。

2
スプラインはデータをオーバーフィットしていますか?
私の問題:最近、統計学者に会いましたが、スプラインはデータの探索にのみ有用であり、オーバーフィットの影響を受けるため、予測には役立ちません。彼は単純な多項式で探索することを好みました...私はスプラインの大ファンなので、これは私の直感に反するので、これらの引数がどのくらい有効であるか、そしてアンチスプラインの大規模なグループがある場合、活動家はいますか? 背景:モデルを作成するときは、フランクハレルの回帰モデリング戦略(1)を追います。彼は、制限された3次スプラインが連続変数を探索するための有効なツールであると主張します。彼はまた、多項式はしきい値、対数などの特定の関係のモデリングが不十分であると主張しています(2)。モデルの線形性をテストするために、彼はスプラインの分散分析テストを提案しています。 H0:β2=β3=…=βk−1=0H0:β2=β3=…=βk−1=0H_0: \beta_2 = \beta_3 = … = \beta_{k-1} = 0 私はスプラインでオーバーフィッティングすることをグーグルで調べましたが、それほど便利ではありませんでした(あまり多くのノットを使用しないことに関する一般的な警告は別として)。このフォーラムでは、スプラインモデリング、Kolassa、Harrell、gungが優先されているようです。 多項式についてのブログ投稿を1つ見つけました。これは、多項式の予測について語る過剰適合の悪魔です。投稿はこれらのコメントで終わります: ここで紹介する例はある程度不正です—多項式回帰は非常にロバストでないことが知られています。実際には、多項式よりもスプラインを使用する方がはるかに優れています。 ここで、この例でスプラインがどのように機能するかを確認するように促されました。 library(rms) p4 <- poly(1:100, degree=4) true4 <- p4 %*% c(1,2,-6,9) days <- 1:70 set.seed(7987) noise4 <- true4 + rnorm(100, sd=.5) reg.n4.4 <- lm(noise4[1:70] ~ poly(days, 4)) reg.n4.4ns <- lm(noise4[1:70] ~ ns(days,4)) dd <- datadist(noise4[1:70], …

1
GAMのテンソル製品の相互作用の背後にある直観(RのMGCVパッケージ)
一般化された加法モデルは 、たとえばモデル です。関数は滑らかで、推定されます。通常、罰せられたスプラインによって。MGCVはRのパッケージであり、著者(Simon Wood)はRの例を含む彼のパッケージに関する本を書いています。ルパート等 (2003)同じもののより単純なバージョンについて、はるかにアクセスしやすい本を書いてください。 y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i 私の質問は、これらの種類のモデル内の相互作用についてです。次のようなことをしたい場合: OLS土地にいた場合(は単なるベータです) 、解釈に問題はありません。ペナルティスプラインを介して推定する場合、加算コンテキストでの解釈にも問題はありません。 y=α+f1(x1)+f2(x2)+f3(x1×x2)+eiy=α+f1(x1)+f2(x2)+f3(x1×x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + f_3(x_1\times x_2) + e_i ffff^3f^3\hat{f}_3 ただし、GAMのMGCVパッケージには、「テンソル積平滑化」と呼ばれるものがあります。私は「テンソル製品」をグーグルで検索し、見つけた説明を読もうとするとすぐに目が輝いた。私は十分に頭が良くないか、数学があまりうまく説明されていないか、またはその両方です。 コーディングの代わりに normal = gam(y~s(x1)+s(x2)+s(x1*x2)) テンソル製品は同じ(?) what = gam(y~te(x1,x2)) 私がする時 plot(what) または vis.gam(what) 本当にクールな出力が得られます。しかし、私はブラックボックス内で何が起こっているのte()か、また前述のクールな出力をどのように解釈するのか分かりません。先日、セミナーを開催しているという悪夢に見舞われました。みんなにクールなグラフを見せて、それが何を意味するのかと尋ねましたが、知りませんでした。それから私は服を着ていないことを発見しました。 ここのボンネットの下で何が起こっているのかについて少しのメカニズムと直感を与えることで、誰も私と後世の両方を助けることができますか?理想的には、通常の加法相互作用の場合とテンソルの場合の違いについて少し言ってください。数学に進む前に、すべてを簡単な英語で言うことのボーナスポイント。

2
平滑化スプラインと平滑化のレスを比較しますか?
曲線を平滑化するために黄土または平滑化スプラインを使用することの長所/短所をよりよく理解したいと思います。 私の質問の別のバリエーションは、黄土を使用するのと同じ結果をもたらす方法で平滑化スプラインを構築する方法があるかどうかです。 参照または洞察を歓迎します。

1
Rの自然な3次スプラインにノットを設定する
多くの相関する特徴を持つデータがあり、LDAを実行する前に、滑らかな基底関数で特徴を減らすことから始めたいと思います。関数でsplinesパッケージ内の自然な3次スプラインを使用しようとしていnsます。 ノットを割り当てるにはどうすればよいですか? 基本的なRコードは次のとおりです。 library(splines) lda.pred <- lda(y ~ ns(x, knots=5)) しかし、私はどのようにノットを選択するのか分からないns。
23 r  splines 

6
高度な回帰モデリングの例
GLMまたはOLSを使用して複雑な複数の非線形関係をモデル化するために必要な手順を示す、高度な線形回帰のケーススタディを探しています。基本的な学校の例を超えてリソースを見つけることは驚くほど困難です:私が読んだ本のほとんどは、1つの予測子のBoxCox、または最良の場合の自然なスプラインと組み合わせた応答のログ変換よりも先に進むことはありません。また、これまでに見てきたすべての例は、個別のモデル、多くの場合単一の予測モデルで各データ変換の問題に取り組みます。 BoxCoxまたはYeoJohnson変換とは何かを知っています。私が探しているのは、応答/関係が明確ではない、詳細で実際のケーススタディです。たとえば、応答は厳密に肯定的ではないため(logまたはBoxCoxは使用できません)、予測子は応答間で応答に対して非線形の関係を持ち、最尤データ変換は標準の0.33を暗示していないようです。または0.5指数。また、残差分散は一定ではない(決して変わらない)ため、応答も変換する必要があり、非標準のGLMファミリー回帰または応答変換の間で選択を行う必要があります。研究者は、おそらくデータの過剰適合を避けるための選択をします。 編集 これまでのところ、次のリソースを収集しました。 回帰モデリング戦略、F。ハレル 適用された計量経済時系列、W。エンダーズ R、G。Petrisを使用した動的線形モデル 応用回帰分析、D。クラインバウム 統計学習入門、G。ジェームズ/ D。ウィッテン 私は最後の(ISLR)のみを読んでおり、非常に良いテキスト(私の時計では5つ星5つ)ですが、高度な回帰モデリングよりもMLを重視しています。 また、CVには、リグレッションの難しいケースを提示するこの優れた投稿があります。

1
スプラインは予測に使用できますか?
データはプロプライエタリであるため、データの性質について具体的に説明することはできませんが、次のようなデータがあるとします。毎月、一部の人々がサービスにサインアップしています。その後、その後の各月に、それらの人々はサービスをアップグレードしたり、サービスを中断したり、サービスを拒否したりすることがあります(支払いの失敗など)データの最初のコホートについては、約2年のデータ(24か月)があります。 毎月参加する人の数は多く(100,000の範囲)、3つのことのいずれかを行う数は数千人です。ただし、個々のレベルのデータ(数百万行)を使用するのではなく、月とコホート(各コホートの各割合が毎月どの程度を占めるか)ごとに集計されたデータを使用しています。 多変量適応回帰スプライン(MARS)を使用して既存のデータをモデル化し、興味深い結果を見つけています。 ただし、これらを使用して将来を予測または予測することを心配しています。私の懸念は、将来への予測は必然的に(時間的に)サンプル空間の外側にあり、スプラインは外挿に対して不安定になる可能性があるためです。 これは正当な方法ですか?どのような懸念があり、それらに対処できますか?

3
スプライン結果の解釈
Rを使用してGLMのスプラインを適合させようとしています。スプラインが適合したら、結果のモデルを取得し、Excelブックでモデリングファイルを作成できるようになります。 たとえば、yがxのランダム関数であり、特定のポイント(この場合@ x = 500)で勾配が急激に変化するデータセットがあるとします。 set.seed(1066) x<- 1:1000 y<- rep(0,1000) y[1:500]<- pmax(x[1:500]+(runif(500)-.5)*67*500/pmax(x[1:500],100),0.01) y[501:1000]<-500+x[501:1000]^1.05*(runif(500)-.5)/7.5 df<-as.data.frame(cbind(x,y)) plot(df) 私は今これを使ってフィットします library(splines) spline1 <- glm(y~ns(x,knots=c(500)),data=df,family=Gamma(link="log")) 私の結果は示しています summary(spline1) Call: glm(formula = y ~ ns(x, knots = c(500)), family = Gamma(link = "log"), data = df) Deviance Residuals: Min 1Q Median 3Q Max -4.0849 -0.1124 -0.0111 0.0988 …
20 splines 

2
スプライン、平滑化スプライン、およびガウスプロセスエミュレーターを使用する利点/欠点は何ですか?
多項式補間の代替方法を学習(および実装)することに興味があります。 しかし、これらの方法のしくみ、関連性、比較方法についての適切な説明を見つけるのに苦労しています。 これらの方法や代替案が役立つ長所/短所/条件についてのご意見をいただければ幸いですが、テキスト、スライド、ポッドキャストへの適切な参照があれば十分です。

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
lmer()はランダム効果としてスプラインを使用できますか?
時間の経過に伴ういくつかのカウントデータのランダム効果モデルに取り組んでおり、いくつかの傾向を制御したいとします。通常、次のようなことをします。 lmer(counts ~ dependent_variable + (1+t+I(t^2)|ID), family="poisson") の2次形状を含めるにはt。LOESSスムーザーやスプラインなど、より洗練されたスムージング手法を使用して、その関係をモデル化することは可能ですか?

2
スプラインベースの視覚化
教科書には通常、トピックを説明しているときに、均一なスプラインの基礎の素晴らしいサンプルプロットがあります。線形スプラインの小さな三角形の列、または3次スプラインの小さなこぶの列のようなもの。 これは典型的な例です: http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_introcom_a0000000525.htm 標準のR関数(bsやnsなど)を使用してスプライン基底のプロットを生成する簡単な方法があるかどうか疑問に思っています。単純な行列演算のいくつかの部分と、スプライン基底のきれいなプロットをエレガントな方法で吐き出す些細なRプログラムとがあると思います。考えられない!

3
多変量の自然な3次スプラインの近似
注: 1か月後に正しい答えが得られないため、SOに再投稿しました バックグラウンド モデルがあり、Y = f (X)fffY=f(X)Y=f(X)Y=f(\textbf{X}) n × m m Y n × 1XX\textbf{X}はパラメーターからのサンプルの行列で、はモデル出力のベクトルです。n×mn×mn \times mmmmYYYn×1n×1n \times 1 f (X 、Y )Yfffは計算量が多いためポイントを通る多変量3次スプラインを使用してを近似し、より多くのポイントでを評価できるようにします。fff(X、Y)(バツ、Y)(X,Y)YYY 質問 XとYの間の任意の関係を計算するR関数はありますか? 具体的にはsplinefun、単変量の場合にスプライン関数を生成する関数の多変量バージョンを探しています。 たとえば、これはsplinefun単変量の場合にどのように機能するかです x <- 1:10 y <- runif(10) foo <- splinefun(x,y) foo(1:10) #returns y, as example all(y == foo(1:10)) ## TRUE 私が試したこと mdaパッケージを確認しましたが、次のように動作するはずです。 library(mda) x …

2
回帰の定義自然3次スプライン
私はHastieらによる「統計学習データマイニング、推論、および予測の要素」という本からスプラインについて学んでいます。145ページで、Natural 3次スプラインが境界の結び目を越えて線形であることを発見しました。スプラインにはノット、があり、本のそのようなスプラインについては次のとおりです。KKKξ1、ξ2、。。。ξKξ1、ξ2、。。。ξK\xi_1, \xi_2, ... \xi_K 質問1: 4自由度はどのように解放されますか?私はこの部分を取得しません。 質問2:の定義において場合次いで。この式で著者がやろうとしていることは何ですか?これは、スプラインが境界ノットを超えて線形であることを確認するのにどのように役立ちますか?dk(X)dk(バツ)d_k(X)k = Kk=Kk=KdK(X)= 00dK(バツ)=00d_K(X) = \frac 0 0

1
スプラインを使用して密度関数の局所極値を見つける
確率密度関数の局所的な最大値を見つけようとしています(Rのdensity方法を使用して見つけました)。大量のデータがあるため、単純な「周辺を見る」方法(ポイントを見て周辺の最大値であるかどうかを確認する方法)を実行できません。さらに、フォールトトレランスやその他のパラメータを使用して「辺りを見る」のではなく、スプライン補間のようなものを使用してから1次導関数の根を見つける方がより効率的で一般的です。 だから、私の質問: からの関数が与えられた場合splinefun、どのメソッドが局所最大値を見つけますか? を使用して返される関数の導関数を見つける簡単/標準的な方法はありsplinefunますか? 確率密度関数の極大値を見つけるためのより良い/標準的な方法はありますか? 参考のために、以下は私の密度関数のプロットです。私が使用している他の密度関数の形式は似ています。私はRには慣れていないが、プログラミングには慣れていないので、必要なものを達成するための標準ライブラリまたはパッケージがあるかもしれません。 ご協力いただきありがとうございます!!
15 r  pdf  splines  maximum 

3
スプラインとガウス過程回帰
Gaussian Process Regression(GPR)は、柔軟な非線形モデルのフィッティングにスプラインを使用する代わりになることを知っています。特にベイジアン回帰フレームワークにおいて、どちらの状況が他の状況よりも適しているかを知りたいと思います。 私はすでに見てきましたスプライン、平滑化スプライン、およびガウス過程エミュレータを使用することの利点/欠点は何?しかし、この投稿にはGPRに関するものは何もないようです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.