タグ付けされた質問 「lme4-nlme」

lme4とnlmeは、線形、一般化された線形、非線形混合効果モデルのフィッティングに使用されるRパッケージです。混合モデルに関する一般的な質問については、[mixed-model]タグを使用してください。

2
Nakagawa&Schielzeth(2013)R2glmmメソッドを使用した混合モデルでの計算
私は混合モデルで値の計算について読んでおり、R-sig FAQ、このフォーラムの他の投稿(いくつかリンクしますが、十分な評判はありません)および使用することを理解しているいくつかの他の参照混合モデルのコンテキストでの値は複雑です。R 2R2R2R^2R2R2R^2 しかし、最近、以下の2つの論文に出会いました。これらの方法は有望に見えますが(私には)統計学者ではないので、他の誰かが提案する方法や提案されている他の方法とどのように比較するかについての洞察が他にあるのではないかと思いました。 中川、シンイチ、ホルガー・シエルツェス。「一般化線形混合効果モデルからR2を取得するための一般的かつ簡単な方法。」Methods in Ecology and Evolution 4.2(2013):133-142。 ジョンソン、ポールCD。「Nakagawa&SchielzethのR2GLMMのランダム勾配モデルへの拡張。」生態学と進化の方法(2014)。 isメソッドは、MuMInパッケージの r.squaredGLMM関数を使用して実装することもできます。これは、メソッドの以下の説明を提供します。 混合効果モデルの場合、は2つのタイプに分類できます。限界は固定因子によって説明される分散を表し、次のように定義されます 条件付きは、固定因子とランダム因子(モデル全体)の両方によって説明される分散として解釈され、式に従って計算されます: ここで、は固定効果成分の分散、は、すべての分散成分(グループ、個人など)の、R 2 R G L M M(M )2 = σ 2 FR2R2R^2R2R2R^2 R2RGLMM(C)2=(σ 2 F +Σ(σ 2 L))RGLMM(m)2=σ2fσ2f+∑(σ2l)+σ2e+σ2dRGLMM(m)2=σf2σf2+∑(σl2)+σe2+σd2R_{GLMM}(m)^2 = \frac{σ_f^2}{σ_f^2 + \sum(σ_l^2) + σ_e^2 + σ_d^2}R2R2R^2RGLMM(c)2=(σ2f+∑(σ2l))(σ2f+∑(σ2l)+σ2e+σ2dRGLMM(c)2=(σf2+∑(σl2))(σf2+∑(σl2)+σe2+σd2R_{GLMM}(c)^2= \frac{(σ_f^2 + \sum(σ_l^2))}{(σ_f^2 + \sum(σ_l^2) + σ_e^2 + σ_d^2}σ2fσf2σ_f^2∑(σ2l)∑(σl2)\sum(σ_l^2)σ2lσl2σ_l^2は加法分散による分散であり、は分布固有の分散です。 …

1
非線形混合モデル(nlme)の予測の信頼区間
非線形混合nlmeモデルの予測で95%の信頼区間を取得したいと思います。内nlmeでこれを行うための標準は何も提供されていないので、Ben Bolkerの本の章で説明されている「人口予測間隔」の方法を使用するのが正しいかどうか疑問に思いました。適合モデルの分散共分散行列に基づいて固定効果パラメーターをリサンプリングし、これに基づいて予測をシミュレートし、これらの予測の95%パーセンタイルを取得して95%の信頼区間を取得しますか? これを行うためのコードは次のようになります:(ここでは、nlmeヘルプファイルの「Loblolly」データを使用します) library(effects) library(nlme) library(MASS) fm1 <- nlme(height ~ SSasymp(age, Asym, R0, lrc), data = Loblolly, fixed = Asym + R0 + lrc ~ 1, random = Asym ~ 1, start = c(Asym = 103, R0 = -8.5, lrc = -3.3)) xvals=seq(min(Loblolly$age),max(Loblolly$age),length.out=100) nresamp=1000 pars.picked = mvrnorm(nresamp, mu = fixef(fm1), …

4
glmerでのランダム効果の分散の解釈
データが二項分布である受粉に関する論文を改訂しています(果実は成熟するかしないか)。そのためglmer、1つのランダム効果(個々の植物)と1つの固定効果(治療)を使用しました。レビューアーは、植物が結実に影響を与えたかどうかを知りたいのですが、glmer結果の解釈に問題があります。 私はウェブを読んでみましたが、直接比較glmとglmerモデルに問題がある可能性があるので、私はそれをしていません。この質問に答える最も簡単な方法は、変量効果の分散(1.449、以下)を総分散、または処理によって説明される分散と比較することだと考えました。しかし、これらの他の分散をどのように計算しますか?以下の出力には含まれていないようです。二項glmer分布に含まれない残差分散について何かを読みました-ランダム効果の相対的な重要性をどのように解釈しますか? > summary(exclusionM_stem) Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: cbind(Fruit_1, Fruit_0) ~ Treatment + (1 | PlantID) AIC BIC logLik deviance df.resid 125.9 131.5 -59.0 117.9 26 Scaled residuals: Min 1Q Median 3Q Max -2.0793 -0.8021 -0.0603 0.6544 …

1
デフォルトのlme4オプティマイザーでは、高次元のデータに対して多くの反復が必要です
TL; DR:lme4最適化は、デフォルトではモデルパラメータの数に直線的であるように思われる、とある道遅く同等以上glmのグループのためのダミー変数を持つモデル。高速化するためにできることはありますか? 私はかなり大きな階層型ロジットモデル(〜5万行、100列、50グループ)に適合させようとしています。データへの通常のロジットモデルのフィッティング(グループのダミー変数を使用)は正常に機能しますが、階層モデルはスタックしているように見えます:最初の最適化フェーズは正常に完了しますが、2番目は何も変更せずに停止せずに多くの反復を実行します。 編集:私は問題が主に非常に多くのパラメータを持っていると疑っています、maxfnより低い値に設定しようとすると警告が表示されるためです: Warning message: In commonArgs(par, fn, control, environment()) : maxfun < 10 * length(par)^2 is not recommended. ただし、最適化の過程でパラメーターの推定値はまったく変化しないため、何をすべきかについてはまだ混乱しています。maxfn(警告にもかかわらず)オプティマイザーコントロールに設定しようとしたときに、最適化が終了した後にハングしたように見えました。 ランダムデータの問題を再現するコードを次に示します。 library(lme4) set.seed(1) SIZE <- 50000 NGRP <- 50 NCOL <- 100 test.case <- data.frame(i=1:SIZE) test.case[["grouping"]] <- sample(NGRP, size=SIZE, replace=TRUE, prob=1/(1:NGRP)) test.case[["y"]] <- sample(c(0, 1), size=SIZE, replace=TRUE, prob=c(0.05, 0.95)) …

2
SAS PROC GLIMMIXが二項glmmに対してglmer(lme4)とは非常に異なるランダムな勾配を与えるのはなぜですか
私はRに精通しているユーザーであり、4つの生息地変数について5年間で約35人のランダムな勾配(選択係数)を推定しようとしています。応答変数は、場所が「使用済み」(1)または「使用可能」(0)の生息地(以下「使用」)であったかどうかです。 Windows 64ビットコンピューターを使用しています。 Rバージョン3.1.0では、以下のデータと式を使用します。PS、TH、RS、およびHWは固定効果です(標準化された、測定された生息地までの距離)。lme4 V 1.1-7。 str(dat) 'data.frame': 359756 obs. of 7 variables: $ use : num 1 1 1 1 1 1 1 1 1 1 ... $ Year : Factor w/ 5 levels "1","2","3","4",..: 4 4 4 4 4 4 4 4 3 4 ... $ ID : …

1
Lmerモデルが収束に失敗する
データをここで説明します反復測定ANOVAを近似するときにaovで「Error()モデルが特異なエラーになる」原因は何ですか? 私が使用して相互作用の効果を確認しようとしていますlmer私の基本ケースがあるので: my_null.model <- lmer(value ~ Condition+Scenario+ (1|Player)+(1|Trial), data = my, REML=FALSE) my.model <- lmer(value ~ Condition*Scenario+ (1|Player)+(1|Trial), data = my, REML=FALSE) を実行するanovaと重要な結果が得られますが、ランダムな勾配((1+Scenario|Player))を考慮しようとすると、このエラーでモデルが失敗します。 Warning messages: 1: In commonArgs(par, fn, control, environment()) : maxfun < 10 * length(par)^2 is not recommended. 2: In optwrap(optimizer, devfun, getStart(start, rho$lower, rho$pp), : convergence code …
12 r  lme4-nlme 

1
混合効果-ZINBまたはその他のデータを含むカウントデータに適したモデルを見つけるのに問題がありますか?
孤独な蜂の豊富さに関する非常に小さなデータセットがあり、分析に問題があります。これはカウントデータであり、ほとんどすべてのカウントが1つの処理で行われ、ほとんどのゼロは他の処理で行われます。また、2つの非常に高い値(6つのサイトのうち2つに1つ)があるため、カウントの分布には非常に長いテールがあります。私はRで働いています。lme4とglmmADMBの2つの異なるパッケージを使用しました。 ポアソン混合モデルは適合しませんでした:ランダム効果が適合していない場合(glmモデル)、モデルは非常に過分散であり、ランダム効果が適合している場合(glmerモデル)は分散不足でした。これがなぜなのか分かりません。実験的な設計では、入れ子になったランダム効果が必要なので、それらを含める必要があります。ポアソン対数正規誤差分布は、適合を改善しませんでした。glmer.nbを使用して負の二項誤差分布を試みましたが、適合させることができませんでした。glmerControl(tolPwrss = 1e-3)を使用して許容値を変更しても、反復制限に達しました。 多くのゼロは、単にミツバチが見えなかったという事実によるものであるため(多くの場合、小さな黒いものです)、ゼロ膨張モデルを試しました。ZIPはうまく適合しませんでした。ZINBはこれまでのところ最高のモデルフィットでしたが、モデルのフィットにはまだ満足していません。次に何をしようか迷っています。ハードルモデルを試しましたが、切り捨てられた分布をゼロ以外の結果に適合させることができませんでした。ゼロの多くが制御処理にあるためだと思います(エラーメッセージは「Model.frame.default(formula = s.bee〜tmt + lu +:可変長が異なります(「治療」で見つかった))。 さらに、含まれる相互作用は、係数が非現実的に小さいため、データに対して奇妙なことをしていると思います。ただし、パッケージbbmleでAICctabを使用してモデルを比較した場合、相互作用を含むモデルが最適でした。 データセットをほぼ再現するRスクリプトを含めています。変数は次のとおりです。 d =ユリウス日、df =ユリウス日(要因として)、d.sq = dfの2乗(ミツバチの数が増加し、夏中に減少する)、st = site、s.bee =ミツバチの数、tmt = treatment、lu =土地利用のタイプ、hab =周囲の景観における半自然の生息地の割合、ba =境界地域のラウンドフィールド。 良いモデルの適合(代替エラー分布、異なるタイプのモデルなど)を得る方法についての提案は非常にありがたいです! ありがとうございました。 d <- c(80, 80, 121, 121, 180, 180, 86, 86, 116, 116, 144, 144, 74, 74, 143, 143, 163, 163, 71, 71,106, 106, …

1
lmerとp値に関する混乱:memiscパッケージのp値はMCMCのものとどのように比較されますか?
パッケージlmer()内の関数はlme4p値を生成しなかったという印象を受けました(lmerp値とその他すべてを参照)。 代わりに、MCMCが生成したp値を使用して、この質問:混合モデルでの重要な効果lme4とこの質問:のパッケージの出力にp値が見つかりませんlmer()lm4R。 最近、私はmemiscと呼ばれるパッケージを試してgetSummary.mer()、モデルの固定効果をcsvファイルに入れました。まるで魔法のようにp、MCMCのp値と​​非常に密接に一致する列が表示されます(また、を使用した場合の処理​​時間はかかりませんpvals.fnc())。 私は暫定的にコードを見てgetSummary.mer、p値を生成する行を見つけました: p <- (1 - pnorm(abs(smry@coefs[, 3]))) * 2 これは、p値をlmer実行するのではなく、出力から直接生成できることを意味しpvals.fncますか?これが疑いなく「p-値フェティシズム」の議論を開始することを理解していますが、知りたいと思っています。memiscそれに関しては以前言及されたことを聞いたことがありませんlmer。 もっと簡潔に:生成された値よりもMCMC p値を使用する利点(ある場合)はgetSummary.mer()何ですか?

1
隠れマルコフモデルで「最適な」モデルを選択するための基準
データの潜在状態の数を推定するために、隠れマルコフモデル(HMM)を近似しようとする時系列データセットがあります。これを行うための私の擬似コードは次のとおりです。 for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } さて、通常の回帰モデルでは、BICは最もpar約的なモデルを好む傾向がありますが、HMMの場合、それが何をしているのかわかりません。BIC基準がどのようなHMMの傾向があるのか​​を実際に知っている人はいますか?また、AICと尤度値も取得できます。州の真の総数を推測しようとしているので、これらの基準の1つは、この目的のために他の基準よりも「優れている」のでしょうか。

2
レベルごとに1つの観測値を持つ混合モデル
ランダム効果モデルglmerをいくつかのビジネスデータに適合させています。目的は、地域のばらつきを考慮して、販売業者による販売実績を分析することです。次の変数があります。 distcode:約800レベルのディストリビューターID region:最上位の地理的ID(北、南、東、西) zone:ネストされた中レベルの地理region、全部で約30レベル territory:内zoneにネストされた低レベルの地理、約150レベル 各ディストリビューターは1つの地域でのみ営業しています。トリッキーな部分は、これが要約データであり、ディストリビューターごとに1つのデータポイントがあることです。したがって、800個のデータポイントがあり、正規化された方法ではあるが(少なくとも)800個のパラメーターを近似しようとしています。 次のようにモデルを適合させました: glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson) メモは出力されますが、これは問題なく実行されます。 変量効果のグループ化因子のレベル数は、観測値の数nに等しい これは賢明なことですか?すべての係数の有限推定値が得られ、AICも不合理ではありません。IDリンクを使用してポアソンGLMMを試すと、AICの方がはるかに悪いので、少なくともログリンクは出発点として適切です。 近似値と応答をプロットすると、ディストリビューターごとに1つのデータポイントがあるため、本質的に完全な近似が得られます。それは合理的ですか、または私は完全に愚かなことをしていますか? これは1か月間のデータを使用しています。複数の月のデータを取得し、その方法でレプリケーションを行うことができますが、月ごとの変動と可能な相互作用については新しい用語を追加する必要がありますか? ETA:上記のモデルをもう一度実行しましたが、family引数はありません(GLMMではなくガウスLMMにすぎません)。今、lmer私に次のエラーが発生しました: エラー(関数(fr、FL、start、REML、verbose)):ランダム効果のグループ化因子のレベル数は、観測値の数より小さくなければなりません ですから、家族を変えても効果はないはずなので、私は賢明なことをしていないと思います。しかし今の問題は、そもそもなぜ機能したのかということです。

2
Rのlmer()でポアソンGLMMの過分散をテストする方法は?
私は次のモデルを持っています: > model1<-lmer(aph.remain~sMFS1+sAG1+sSHDI1+sbare+season+crop +(1|landscape),family=poisson) ...そしてこれは要約出力です。 > summary(model1) Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS1 + sAG1 + sSHDI1 + sbare + season + crop + (1 | landscape) AIC BIC logLik deviance 4057 4088 -2019 4039 Random effects: Groups Name Variance Std.Dev. landscape (Intercept) …

1
nlmer()を使用して反復測定データの非線形混合効果モデルをどのように近似しますか?
私は繰り返し測定データを分析しようとしており、それをで機能させるのに苦労していRます。私のデータは基本的に次のとおりです。2つの治療グループがあります。各グループのすべての被験者は毎日テストされ、スコア(テストの正解率)が与えられます。データは長い形式です: Time Percent Subject Group 1 0 GK11 Ethanol 2 0 GK11 Ethanol 3 0 GK11 Ethanol 4 0 GK11 Ethanol 5 0 GK11 Ethanol 6 0 GK11 Ethanol データはロジスティック曲線に似ており、被験者は数日間非常にうまく機能せず、その後急速に改善し、その後プラトーになります。処理がテストパフォーマンス曲線に影響を与えるかどうかを知りたいのですが。私の考えはnlmer()、のlme4パッケージで使用することでしたR。以下を使用して、グループごとに線を合わせることができます。 print(nm1 <- nlmer(Percent ~ SSlogis(Time,Asym, xmid, scal) ~ Asym | Subject, salinedata, start = c(Asym =.60, xmid = 23, scal …

1
完全な成功を収めたカテゴリー変数を含む2項式glmm
二項応答変数とカテゴリカル予測子を使ってglmmを実行しています。ランダムな効果は、データ収集に使用されるネストされたデザインによって与えられます。データは次のようになります。 m.gen1$treatment [1] sucrose control protein control no_injection ..... Levels: no_injection control sucrose protein m.gen1$emergence [1] 1 0 0 1 0 1 1 1 1 1 1 0 0.... > m.gen1$nest [1] 1 1 1 2 2 3 3 3 3 4 4 4 ..... Levels: 1 2 3 4 …


1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.