タグ付けされた質問 「gam」

一般化加法モデル(GAM)は、応答変数がいくつかの予測変数の未知の滑らかな関数に依存する一般化線形モデル(GLM)です。

4
なぜ空間自己相関のGAMアカウントに緯度と経度を含めるのですか?
森林破壊のための一般化された加算モデルを作成しました。空間的自己相関を説明するために、緯度と経度を平滑化された相互作用項(つまりs(x、y))として含めました。 著者は「空間的自己相関を考慮して、ポイントの座標は平滑化された用語として含まれている」と言う多くの論文を読んでこれを基にしましたが、これらが実際にそれを説明する理由を説明したことはありません。とてもイライラします。私は答えを見つけることを期待してGAMで見つけることができるすべての本を読みましたが、ほとんど(たとえば、一般化された加算モデル、Rの紹介、SN Wood)は説明なしで主題に触れています。 誰かが空間自己相関の緯度と経度の説明を含める理由を説明できれば、本当に感謝していますs(x、y)inとなしのモデル?また、この用語で説明される逸脱は、空間的自己相関の程度を示していますか?

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
GAMに相互作用用語を含める方法
次のコードは、2つの時系列間の類似性を評価します。 set.seed(10) RandData <- rnorm(8760*2) America <- rep(c('NewYork','Miami'),each=8760) Date = seq(from=as.POSIXct("1991-01-01 00:00"), to=as.POSIXct("1991-12-31 23:00"), length=8760) DatNew <- data.frame(Loc = America, Doy = as.numeric(format(Date,format = "%j")), Tod = as.numeric(format(Date,format = "%H")), Temp = RandData, DecTime = rep(seq(1, length(RandData)/2) / (length(RandData)/2), 2)) require(mgcv) mod1 <- gam(Temp ~ Loc + s(Doy) + s(Doy,by …

2
一般化された加法モデル—サイモンウッド以外の研究者は誰ですか?
私はGAMをますます使用しています。さまざまなコンポーネント(平滑化パラメーターの選択、さまざまなスプラインベース、平滑項のp値)の参照を提供しようとすると、それらはすべて1人の研究者(イギリスのバース大学のサイモンウッド)からのものです。 彼はmgcvR のメンテナーでもあり、彼は自分の仕事を実装しています。 mgcv非常に複雑ですが、非常にうまく機能します。 確かに古いものがあります。元のアイデアはHastie&Tibshiraniの功績によるものであり、2003年にRuppertらによって非常に古い教科書が執筆されました。 申請者として、私は学術統計学者の間で時代精神を感じていない。彼の作品はどのように見られていますか?1人の研究者が1つの分野でこれほど多くのことを行ったことは少し奇妙ですか?それとも、中に入れられないためにそれほど気づかない他の仕事がありmgcvますか?GAMがそれほど使用されているとは思いませんが、この資料は統計トレーニングを受けた人々にとっては合理的にアクセス可能であり、ソフトウェアは非常によく開発されています。「裏話」の多くはありますか? 統計ジャーナルからのパースペクティブの断片や他の同様のものの推奨は高く評価されるでしょう。

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

3
GAMモデルの信頼区間
mgcv::gamのヘルプページを読む: 信頼モデル/信頼区間は、適合モデルを使用して予測された数量に対して容易に利用可能です ただし、実際に取得する方法はわかりません。とがあると思ったのですpredict.gamが、type=confidenceありlevelません。作成方法を教えてください。

1
一般化された加算モデルPythonライブラリ
Rには、一般化された加法モデル用のgamおよびmgcvライブラリーがあることを知っています。しかし、Pythonエコシステムで対応するものを見つけるのに苦労しています(statsmodelsはサンドボックスにプロトタイプしかありません)。誰かが既存のPythonライブラリを知っていますか?これがscikit-learnの開発/貢献に適したプロジェクトでない場合、誰がこれを知っているでしょうか。
14 gam 

1
GAM vs LOESS vsスプライン
コンテキスト:パラメトリックではない散布図に線を描画したいのでgeom_smooth()、ggplotin を使用していRます。geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.一般化された加法モデルのGAMスタンドを収集し、3次スプラインを使用して自動的に戻ります。 次の認識は正しいですか? レスは、特定の値で応答を推定します。 スプラインは、データ(一般化された加法モデルを構成する)に適合するさまざまな区分的関数を接続する近似であり、3次スプラインはここで使用される特定のタイプのスプラインです。 最後に、スプラインはいつ使用する必要があり、LOESSはいつ使用する必要がありますか?

3
GAMとGLMを使用する場合
これは潜在的に広範な質問かもしれませんが、GLM(一般化線形モデル)よりもGAM(一般化加算モデル)の使用を示す一般化可能な仮定があるかどうか疑問に思っていましたか? 最近、誰かがデータ構造を「加算的」であると仮定した場合にのみGAMを使用すべきだと教えてくれました。つまり、xを追加してyを予測すると予想しています。別の人は、GAMはGLMとは異なるタイプの回帰分析を行い、直線性を仮定できる場合はGLMが好ましいと指摘しました。 過去に、生態学的データにGAMを使用してきました。たとえば: 連続時系列 データが線形形状を持たなかったとき yを予測するために複数のxがあり、「表面プロット」と統計テストを使用して視覚化できる非線形相互作用があると考えました 私は明らかに、GAMがGLMとどのように異なるのかをよく理解していません。私はそれが有効な統計的テストであると信じています(少なくとも生態系ジャーナルではGAMの使用が増加していると思います)が、その使用が他の回帰分析よりも示されている場合、よりよく知る必要があります。

1
一般化された加法モデル(GAM)、相互作用、共変量
私は予測のための多くのツールを調査してきましたが、一般化された加算モデル(GAM)がこの目的に最も可能性があることがわかりました。GAMは素晴らしいです!複雑なモデルを非常に簡潔に指定できます。ただし、その簡潔さが、特にGAMが相互作用項と共変量をどのように考えているかという点で、混乱を招いています。 yいくつかのガウス分布に加えてノイズが加わった単調関数であるサンプルデータセット(投稿の最後に再現可能なコード)を考えてみましょう。 データセットには、いくつかの予測変数があります。 x:データのインデックス(1〜100)。 w:yガウス分布が存在するセクションをマークする2番目の機能。w値は1〜20で、11〜30 x、および51〜70です。それ以外の場合wは0です。 w2:w + 1ので、0値はありません。 Rのmgcvパッケージにより、これらのデータの多くの可能なモデルを簡単に指定できます。 モデル1および2はかなり直感的です。デフォルトの平滑度でyインデックス値のみから予測xすると、あいまいに正しいものが生成されますが、滑らかすぎます。に存在する「平均ガウス」モデルの結果yからのみ予測し、他のデータポイントは「認識」しません。すべてのデータポイントの値は0です。wyw モデル3は両方xを使用しw、1Dスムースとして使用して、ぴったりとフィットします。モデル4は、2Dスムーズを使用してxおりw、優れた適合性も提供します。これら2つのモデルは非常に似ていますが、同一ではありません。 モデル5モデルx"by" w。モデル6はその逆です。mgcvのドキュメントには、「by引数により、スムーズ関数に['by'引数で指定された共変量]が乗算されることが保証されている」と記載されています。モデル5とモデル6は同等ではありませんか? モデル7および8は、予測子の1つを線形項として使用します。GLMがこれらの予測子で行うことを単純に実行し、モデルの残りの部分に効果を追加するため、これらは直感的に理にかなっています。 最後に、モデル9はモデル5と同じですが、x「by」w2(つまり)で平滑化されw + 1ます。ここで私にとって奇妙なのは、ゼロの欠如がw2「by」相互作用に著しく異なる効果をもたらすことです。 したがって、私の質問は次のとおりです。 モデル3とモデル4の仕様の違いは何ですか?違いをより明確に引き出す他の例はありますか? ここで「by」とは正確には何ですか?私がウッドの本とこのウェブサイトで読んだことの多くは、「by」が相乗効果を生み出すことを示唆していますが、その直観をつかむのに苦労しています。 モデル5とモデル9の間に大きな違いがあるのはなぜですか? Rで書かれたReprexが続きます。 library(magrittr) library(tidyverse) library(mgcv) set.seed(1222) data.ex <- tibble( x = 1:100, w = c(rep(0, 10), 1:20, rep(0, 20), 1:20, rep(0, 30)), w2 = w + 1, y = …
12 r  modeling  gam  mgcv 

1
GAM近似の概要
GAMを次のように適合させる場合: gam.fit = gam::gam(Outstate ~ Private + s(Room.Board, df = 2) + s(PhD, df = 2) + s(perc.alumni, df = 2) + s(Expend, df = 5) + s(Grad.Rate, df = 2), data = College) ここでCollege、パッケージ内にあるデータセットを使用しますISLR。 さて、この適合の要約を見つけると、次のことがわかります。 > summary(gam.fit) Call: gam(formula = Outstate ~ Private + s(Room.Board, df = 2) + …
12 anova  gam 

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
mgcv gamでのランダムな効果による予測
私は、mgcvのgamを使用して総漁獲量をモデル化し、個々の船(時間の経過とともに繰り返し漁業を行う)の単純なランダム効果をモデル化することに興味があります。私は98科目を持っているので、ランダム効果をモデル化するためにgammではなくgamを使用すると思いました。私のモデルは: modelGOM <- gam(TotalFish ~ factor(SetYear) + factor(SetMonth) + factor(TimePeriod) + s(SST) + s(VesselID, bs = "re", by = dum) + s(Distance, by = TimePeriod) + offset(log(HooksSet)), data = GOM, family = tw(), method = "REML") 私はbs = "re"とby = dumでランダム効果をコード化しました(これにより、予測値またはゼロでの血管効果を予測できるようになります)。"dum"は1のベクトルです。 モデルは実行されますが、予測に問題があります。予測のために血管の1つ(Vessel21)を選択し、予測に関心のある予測子(距離)以外のすべての平均値を選択しました。 data.frame("Distance"=seq(min(GOM$Distance),max(GOM$Distance),length = 100), "SetYear" = '2006', "SetMonth" = …

1
一般化された加法モデルの分散インフレ係数
線形回帰の通常のVIF計算では、各独立変数/説明変数は、通常の最小二乗回帰では従属変数として扱われます。すなわちバツjXjX_j バツj= β0+ ∑i = 1 、i ≠ jんβ私バツ私Xj=β0+∑i=1,i≠jnβiXi X_j = \beta_0 + \sum_{i=1, i \neq j}^n \beta_i X_i 値のそれぞれについて格納される回帰とVIFは、によって決定されます nR2R2R^2んnn V私Fj= 11 − R2jVIFj=11−Rj2 VIF_j = \frac{1}{1-R^2_j} 特定の説明変数。 私の一般化加法モデルが Y= β0+ ∑i = 1んβ私バツ私+ ∑j = 1メートルsj(X私)。Y=β0+Σ私=1んβ私バツ私+Σj=1メートルsj(バツ私)。 Y=\beta_0+ \sum_{i=1}^n \beta_iX_i + \sum_{j=1}^m s_j(X_i) . このタイプのモデルに相当するVIF計算はありますか?多重共線性をテストするために滑らかな項を制御できる方法はありますか?sjsjs_j

1
観察された対立遺伝子頻度は予測よりも大幅に少ないですか?
質問:観察された「山」対立遺伝子頻度(図1)が生態学的選択モデル(詳細は以下を参照)によって予測された(図2)よりも中央から南部の山で著しく低いかどうかを判断するテストを構築するにはどうすればよいですか? 問題:私の最初の考えは、緯度:経度と高度に対してモデルの残差を回帰することでした(これにより、緯度と経度の間の相互作用のみが重要になります)。問題は、残差(図3)がモデルによって説明されない変動を反映していること、および/またはそれらが生物学的に起こっていることである、たとえば対立遺伝子がそのポテンシャルまで南に広がる時間がない、または遺伝子の流れに対する何らかの障壁があることです。観測された(図1)と予想された(図2)の山アレル頻度を比較すると、特にスウェーデンとノルウェーの中央から南部の山では明らかな違いがあります。モデルがすべてのバリエーションを説明しない可能性があることは認めますが、山岳対立遺伝子が中部山脈から南部山脈でその可能性に達していないという考えを調査するための合理的なテストを考え出すことはできますか? バックグラウンド:私はバイアレルAFLPマーカーを持っています。その頻度分布は、スカンジナビア半島の低地生息地と山(および緯度:経度)に関連しているようです(図1)。「山」対立遺伝子は、山岳地帯である北部でほぼ固定されています。それは山が欠けている南の「低地」対立遺伝子のためにほとんど欠けているか固定されています。山の中を北から南に移動すると、「山」対立遺伝子はより低い頻度で発生します。北から南への「山」対立遺伝子頻度のこの違いは、地域が北と南の両方から植民地化されたため、単純に系統地理学または歴史的プロセスが原因である可能性があります。たとえば、山岳対立遺伝子が北部の人口に由来する場合、おそらく南部の人口に完全に拡大する時間がありませんでした。 私の作業仮説は、「山」対立遺伝子頻度が生態学的選択の結果であるというものです(帰無仮説は中立選択です)。 私の生態学的選択モデルでは、応答変数として二項対立遺伝子頻度(通常、各サイトで10から20の個体がサンプリングされたフェノスカンジナビア全体で129のサイトでサンプリング)と、いくつかの気候および成長期変数を使用して、一般化加法モデル(GAM)を使用しました。予測変数。モデルの結果は次のとおりです(TMAX04-06 = 4月から6月の最高気温、Phen_NPPMN =平均成長期の植生生産性、PET_HE_YR =年間の潜在的な蒸発散量、Dist_Coast =海岸までの距離): Family: binomial Link function: logit Formula: Binomial_WW1 ~ s(TMAX_04) + s(TMAX_05) + s(TMAX_06) + s(Phen_NPPMN) + s(PET_HE_YR) + s(Dist_Coast) Parametric coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.74372 0.04736 -15.7 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.