タグ付けされた質問 「mixed-model」

混合(別名マルチレベルまたは階層)モデルは、固定効果と変量効果の両方を含む線形モデルです。これらは、長期的またはネストされたデータをモデル化するために使用されます。

1
混合効果モデル(lme4)からのケースの勾配の抽出
次の段落で概説するように、混合効果モデルで各個人の勾配を抽出したい 混合効果モデルを使用して、年齢、性別、教育年数を固定効果として含む認知サマリー測定値の個々の変化の経路を特徴付けました(Laird and Ware、1982; Wilson et al。、2000、2002c)... 。年齢、性別、教育の影響を調整した後、混合モデルから個々の認知低下勾配の残存用語を抽出しました。次に、個人固有の調整された残差勾配が、遺伝的関連分析の定量的結果表現型として使用されました。これらの推定値は、個人の傾斜と、同じ年齢、性別、教育レベルの個人の予測傾斜との差に相当します。 De Jager、PL、Shulman、JM、Chibnik、LB、Keenan、BT、Raj、T.、Wilson、RSなど (2012)。加齢に伴う認知機能低下の割合に影響を与える一般的なバリアントのゲノムワイドスキャン。老化の神経生物学、33(5)、1017.e1〜1017.e15。 coef関数を使用して各個人の係数を抽出することを検討しましたが、これが使用する正しいアプローチであるかどうかはわかりません。 誰でもこれを行う方法に関するアドバイスを提供できますか? #example R code library(lme4) attach(sleepstudy) fml <- lmer(Reaction ~ Days + (Days|Subject), sleepstudy) beta <- coef(fml)$Subject colnames(beta) <- c("Intercept", "Slope") beta summary(beta) summary(fm1)
12 r  mixed-model 

1
線形混合効果モデルの結果の報告
線形混合効果モデルは、生物学の隅では一般的に使用されていません。執筆しようとしている論文で使用した統計検定を報告する必要があります。生物科学のいくつかの分野でマルチレベルモデリングの認識が現れ始めていることを知っています(依存関係の解決策:ネストされたデータに対応するためにマルチレベル分析を使用)。 私の実験デザインの概要: *被験者は4つの治療グループの1つに割り当てられました *従属変数の測定は治療開始後のさまざまな日に行われました *デザインは不均衡です一部の被験者の数日間の測定値) *治療Aは参照カテゴリーです*治療 の最終日にデータを集中しました 治療A(参照カテゴリー)が他の治療(治療終了時)よりも有意に良い結果をもたらすかどうか知りたいです。 私はnlmeを使用してRで分析を行いました: mymodel <- lme(dv ~ Treatment*Day, random = ~1|Subject, data = mydf, na.action = na.omit, + correlation = corAR1(form = ~1 |Subject), method = "REML") また、出力(一部、簡潔にするために切り捨てられます)は次のとおりです。 >anova(mymodel) numDF denDF F-value p-value (Intercept) 1 222 36173.09 <.0001 Treat 3 35 16.61 <.0001 Day …

1
混合効果-ZINBまたはその他のデータを含むカウントデータに適したモデルを見つけるのに問題がありますか?
孤独な蜂の豊富さに関する非常に小さなデータセットがあり、分析に問題があります。これはカウントデータであり、ほとんどすべてのカウントが1つの処理で行われ、ほとんどのゼロは他の処理で行われます。また、2つの非常に高い値(6つのサイトのうち2つに1つ)があるため、カウントの分布には非常に長いテールがあります。私はRで働いています。lme4とglmmADMBの2つの異なるパッケージを使用しました。 ポアソン混合モデルは適合しませんでした:ランダム効果が適合していない場合(glmモデル)、モデルは非常に過分散であり、ランダム効果が適合している場合(glmerモデル)は分散不足でした。これがなぜなのか分かりません。実験的な設計では、入れ子になったランダム効果が必要なので、それらを含める必要があります。ポアソン対数正規誤差分布は、適合を改善しませんでした。glmer.nbを使用して負の二項誤差分布を試みましたが、適合させることができませんでした。glmerControl(tolPwrss = 1e-3)を使用して許容値を変更しても、反復制限に達しました。 多くのゼロは、単にミツバチが見えなかったという事実によるものであるため(多くの場合、小さな黒いものです)、ゼロ膨張モデルを試しました。ZIPはうまく適合しませんでした。ZINBはこれまでのところ最高のモデルフィットでしたが、モデルのフィットにはまだ満足していません。次に何をしようか迷っています。ハードルモデルを試しましたが、切り捨てられた分布をゼロ以外の結果に適合させることができませんでした。ゼロの多くが制御処理にあるためだと思います(エラーメッセージは「Model.frame.default(formula = s.bee〜tmt + lu +:可変長が異なります(「治療」で見つかった))。 さらに、含まれる相互作用は、係数が非現実的に小さいため、データに対して奇妙なことをしていると思います。ただし、パッケージbbmleでAICctabを使用してモデルを比較した場合、相互作用を含むモデルが最適でした。 データセットをほぼ再現するRスクリプトを含めています。変数は次のとおりです。 d =ユリウス日、df =ユリウス日(要因として)、d.sq = dfの2乗(ミツバチの数が増加し、夏中に減少する)、st = site、s.bee =ミツバチの数、tmt = treatment、lu =土地利用のタイプ、hab =周囲の景観における半自然の生息地の割合、ba =境界地域のラウンドフィールド。 良いモデルの適合(代替エラー分布、異なるタイプのモデルなど)を得る方法についての提案は非常にありがたいです! ありがとうございました。 d <- c(80, 80, 121, 121, 180, 180, 86, 86, 116, 116, 144, 144, 74, 74, 143, 143, 163, 163, 71, 71,106, 106, …

1
一般化非線形最小二乗回帰(nlme)の対数尤度を「手で」計算する
私は、機能のための最小二乗非線形回帰、一般化のための対数尤度を計算しようとしているf(x)=β1(1+xβ2)β3f(x)=β1(1+xβ2)β3f(x)=\frac{\beta_1}{(1+\frac x\beta_2)^{\beta_3}}によって最適化されたgnlsRパッケージの機能をnlme(ブラウン運動と仮定AA系統樹上の距離によって生成された分散共分散行列使用して、corBrownian(phy=tree)からape)パッケージ。次の再現可能なRコードは、x、yデータと9タクサを持つランダムツリーを使用してgnlsモデルに適合します。 require(ape) require(nlme) require(expm) tree <- rtree(9) x <- c(0,14.51,32.9,44.41,86.18,136.28,178.21,262.3,521.94) y <- c(100,93.69,82.09,62.24,32.71,48.4,35.98,15.73,9.71) data <- data.frame(x,y,row.names=tree$tip.label) model <- y~beta1/((1+(x/beta2))^beta3) f=function(beta,x) beta[1]/((1+(x/beta[2]))^beta[3]) start <- c(beta1=103.651004,beta2=119.55067,beta3=1.370105) correlation <- corBrownian(phy=tree) fit <- gnls(model=model,data=data,start=start,correlation=correlation) logLik(fit) logLikから得られた推定パラメータに基づいて、対数尤度を「手で」(Rで、ただし関数を使用せずに)計算したいgnlsので、からの出力と一致しますlogLik(fit)。注:パラメーターを推定しようとはしていません。gnls関数によって推定されたパラメータの対数尤度を計算したいだけです(誰かがパラメータなしgnlsでパラメータを推定する方法の再現可能な例を持っているなら、私はそれを見ることに非常に興味があるでしょう!)。 Rでこれをどのように実行するかはよくわかりません。SとS-Plusの混合効果モデル(PinheiroとBates)で説明されている線形代数表記法は頭の上のもので、私の試みはどれも一致していませんlogLik(fit)。PinheiroとBatesが説明する詳細は次のとおりです。 一般化された非線形最小二乗モデルの対数尤度 ここで、 φ I = A I β次のように計算されます。yi=fi(ϕi,vi)+ϵiyi=fi(ϕi,vi)+ϵiy_i=f_i(\phi_i,v_i)+\epsilon_iϕi=Aiβϕi=Aiβ\phi_i=A_i\beta l(β,σ2,δ|y)=−12{Nlog(2πσ2)+∑i=1M[||y∗i−f∗i(β)||2σ2+log|Λi|]}l(β,σ2,δ|y)=−12{Nlog⁡(2πσ2)+∑i=1M[||yi∗−fi∗(β)||2σ2+log⁡|Λi|]}l(\beta,\sigma^2,\delta|y)=-\frac 12 \Bigl\{ N\log(2\pi\sigma^2)+\sum\limits_{i=1}^M{\Bigl[\frac{||y_i^*-f_i^*(\beta)||^2}{\sigma^2}+\log|\Lambda_i|\Bigl]\Bigl\}} ここで、は観測値の数、f ∗ i(β )= …

1
混合効果モデルの固定効果の推論
相関データがあり、ロジスティック回帰混合効果モデルを使用して、対象の予測変数の個々のレベル(条件付き)効果を推定しています。標準的な限界モデルの場合、Waldテストを使用したモデルパラメーターの推論は、尤度比テストとスコアテストで一貫していることを知っています。通常、これらはほぼ同じです。Waldは計算が簡単で、R出力で利用できるため、その99%の時間を使用します。 しかし、混合効果モデルでは、Rのモデル出力で報告されている固定効果のWaldテストと、「手作業」の尤度比テストの間に大きな違いがあることに興味をそそられました。実際に縮小モデルに適合します。直観的に、なぜこれが大きな違いを生むのかがわかります。なぜなら、縮小モデルでは、ランダム効果の分散が再推定され、尤度に大きく影響するからです。 誰か説明できますか 固定効果のWald検定統計量はどのようにRで計算されますか? 混合効果モデルの推定モデルパラメーターの情報マトリックスは何ですか?(そしてWald検定統計量の計算元と同じmxですか?) 説明したケースの2つのテストの結果の解釈の違いは何ですか?どのモデルが一般的に動機付けられ、推論のために文献で使用されていますか?

1
lmerとp値に関する混乱:memiscパッケージのp値はMCMCのものとどのように比較されますか?
パッケージlmer()内の関数はlme4p値を生成しなかったという印象を受けました(lmerp値とその他すべてを参照)。 代わりに、MCMCが生成したp値を使用して、この質問:混合モデルでの重要な効果lme4とこの質問:のパッケージの出力にp値が見つかりませんlmer()lm4R。 最近、私はmemiscと呼ばれるパッケージを試してgetSummary.mer()、モデルの固定効果をcsvファイルに入れました。まるで魔法のようにp、MCMCのp値と​​非常に密接に一致する列が表示されます(また、を使用した場合の処理​​時間はかかりませんpvals.fnc())。 私は暫定的にコードを見てgetSummary.mer、p値を生成する行を見つけました: p <- (1 - pnorm(abs(smry@coefs[, 3]))) * 2 これは、p値をlmer実行するのではなく、出力から直接生成できることを意味しpvals.fncますか?これが疑いなく「p-値フェティシズム」の議論を開始することを理解していますが、知りたいと思っています。memiscそれに関しては以前言及されたことを聞いたことがありませんlmer。 もっと簡潔に:生成された値よりもMCMC p値を使用する利点(ある場合)はgetSummary.mer()何ですか?

2
レベルごとに1つの観測値を持つ混合モデル
ランダム効果モデルglmerをいくつかのビジネスデータに適合させています。目的は、地域のばらつきを考慮して、販売業者による販売実績を分析することです。次の変数があります。 distcode:約800レベルのディストリビューターID region:最上位の地理的ID(北、南、東、西) zone:ネストされた中レベルの地理region、全部で約30レベル territory:内zoneにネストされた低レベルの地理、約150レベル 各ディストリビューターは1つの地域でのみ営業しています。トリッキーな部分は、これが要約データであり、ディストリビューターごとに1つのデータポイントがあることです。したがって、800個のデータポイントがあり、正規化された方法ではあるが(少なくとも)800個のパラメーターを近似しようとしています。 次のようにモデルを適合させました: glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson) メモは出力されますが、これは問題なく実行されます。 変量効果のグループ化因子のレベル数は、観測値の数nに等しい これは賢明なことですか?すべての係数の有限推定値が得られ、AICも不合理ではありません。IDリンクを使用してポアソンGLMMを試すと、AICの方がはるかに悪いので、少なくともログリンクは出発点として適切です。 近似値と応答をプロットすると、ディストリビューターごとに1つのデータポイントがあるため、本質的に完全な近似が得られます。それは合理的ですか、または私は完全に愚かなことをしていますか? これは1か月間のデータを使用しています。複数の月のデータを取得し、その方法でレプリケーションを行うことができますが、月ごとの変動と可能な相互作用については新しい用語を追加する必要がありますか? ETA:上記のモデルをもう一度実行しましたが、family引数はありません(GLMMではなくガウスLMMにすぎません)。今、lmer私に次のエラーが発生しました: エラー(関数(fr、FL、start、REML、verbose)):ランダム効果のグループ化因子のレベル数は、観測値の数より小さくなければなりません ですから、家族を変えても効果はないはずなので、私は賢明なことをしていないと思います。しかし今の問題は、そもそもなぜ機能したのかということです。

1
混合モデルの表記法の調整
私は次のような表記法に精通しています: yij=β0+βixij+uj+eij=β0j+βixij+eijyij=β0+βixij+uj+eij=β0j+βixij+eij\begin{align} y_{ij} &= \beta_0 + \beta_i x_{ij} + u_j + e_{ij}\\ &= \beta_{0j} + \beta_i x_{ij} + e_{ij} \end{align} 場合β0j=β0+ujβ0j=β0+uj\beta_{0j}=\beta_{0}+u_j、及び yij=β0+β1xij+u0j+u1jxij+eij=β0j+β1jxij+eijyij=β0+β1xij+u0j+u1jxij+eij=β0j+β1jxij+eij\begin{align} y_{ij} &= \beta_0 + \beta_1 x_{ij} + u_{0j} + u_{1j} x_{ij} + e_{ij} \\ &= \beta_{0j} + \beta_{1j} x_{ij} + e_{ij} \end{align} 場合β0j=β0+u0jβ0j=β0+u0j\beta_{0j}=\beta_{0}+u_{0j}およびβ1j=β1+u1jβ1j=β1+u1j\beta_{1j}=\beta_1+u_{1j} ランダム切片モデルとランダム勾配+ランダム切片モデルのそれぞれに対して。 また、この行列/ベクトル表記に出会ったことがありますが、それは「お年寄り向けの混合モデル表記」であると言われています(私の兄によると)。 βは固定効果であり、 By=Xβ+Zb+ey=Xβ+Zb+e \mathbf{y}=\mathbf{X\beta} …

1
Rの反復測定による線形回帰
反復測定設計のために、R inで線形回帰を実行する方法を理解できませんでした。で前の質問(まだ未回答)には使用しないように私に示唆されたlmのではなく混合モデルを使用します。私lmは次のように使用しました: lm.velocity_vs_Velocity_response <- lm(Velocity_response~Velocity*Subject, data=mydata) (データセットの詳細については、上記のリンクをご覧ください) ただし、インターネット上で、線形回帰分析の実行方法を示すRコードの例を見つけることができませんでした。 私が欲しいのは、一方でデータにフィットする線でデータをプロットし、他方でモデルの有意性の検定のための値とp値です。R2R2R^2 いくつかの提案を提供できる人はいますか?Rのコード例はどれも非常に役立ちます。 編集 これまでに受け取った提案によると、2つの変数Velocity_response(アンケートから派生)とVelocity(パフォーマンスから派生)の間に線形関係があるかどうかを理解するために、データを分析するソリューションは次のようになります。 library(nlme) summary(lme(Velocity_response ~ Velocity*Subject, data=scrd, random= ~1|Subject)) 要約の結果はこれを与えます: > summary(lme(Velocity_response ~ Velocity*Subject, data=scrd, random= ~1|Subject)) Linear mixed-effects model fit by REML Data: scrd AIC BIC logLik 104.2542 126.1603 -30.1271 Random effects: Formula: ~1 | Subject (Intercept) Residual StdDev: …

1
複雑なモデルを大きなデータセットに繰り返し当てはめるときに計算効率を最適化するにはどうすればよいですか?
MCMCglmmR のパッケージを使用して混合効果モデルを実行すると、パフォーマンスの問題が発生します。コードは次のようになります。 MC1<-MCMCglmm(bull~1,random=~school,data=dt,family="categorical" , prior=list(R=list(V=1,fix=1), G=list(G1=list(V=1, nu=0))) , slice=T, nitt=iter, ,burnin=burn, verbose=F) データには約20,000の観測があり、それらは約200の学校に集中しています。実行する前に、未使用の変数をすべてデータフレームから削除し、他のすべてのオブジェクトをメモリから削除しました。私が抱えている問題は、反復を許容できないほど小さな数に減らしない限り、実行に非常に長い時間がかかることです。50,000回の反復により、5時間かかり、実行する多くの異なるモデルがあります。したがって、コードの実行を高速化する方法、または使用できる他のパッケージがあるかどうかを知りたいと思います。MCMCglmmランダム効果の信頼区間が必要なため、使用しています。 一方で、私は今年後半に新しいPCを手に入れたいと思っていましたが、少し運が良ければそれを前に出すことができるかもしれないので、新しいハードウェアに限られた金額を使うにはどうすればいいですか? 、CPUの高速化など。タスクマネージャーを見ると、RAMが問題であるとは思いません(物理的な使用量の50%を超えることはありません)。 。私の現在のセットアップは、Intel Core i5 2.66GHz、4GB RAM、7200rpm HDDです。追加のRAMを犠牲にして、できるだけ高速なCPUを取得することは合理的ですか?また、このような統計計算の問題に対するレベル3のCPUキャッシュサイズの影響についても疑問に思いましたか? アップデート:たSOメタに尋ねた私は、スーパーユーザーの質問およびポストを修正してくださいすることをお勧めされています。そのためには、MCMCglmmで「内部」で何が行われているかについて、より詳細に説明する必要があります。計算時間の大部分が最適化に費やされていると考えるのは正しいですか?つまり、いくつかの複雑な関数の最大値を見つけるということですか?行列の反転や他の線形代数演算もボトルネックの原因となる一般的な演算ですか?私がスーパーユーザーコミュニティに提供できるその他の情報は、最もありがたいことに受信されます。

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
ランダムな勾配を持つ混合効果回帰モデルでMCMC仮説検定を行うにはどうすればよいですか?
ライブラリlanguageRは、lmerを使用して混合効果回帰モデルの適合における固定効果のMCMC有意性テストを実行するメソッド(pvals.fnc)を提供します。ただし、lmerモデルにランダムな勾配が含まれている場合、pvals.fncはエラーを返します。 そのようなモデルのMCMC仮説検定を行う方法はありますか? もしそうなら、どのように?(回答を受け入れるには、Rで有効な例を使用する必要があります)そうでない場合、方法がない理由は概念的/計算上の理由がありますか? この質問はこれに関連している可能性があります、そこにある内容を確実に理解できませんでした。 編集1:pvals.fnc()はlme4モデルではまだ「何か」を行うが、ランダムな勾配モデルでは何もしないことを示す概念実証。 library(lme4) library(languageR) #the example from pvals.fnc data(primingHeid) # remove extreme outliers primingHeid = primingHeid[primingHeid$RT < 7.1,] # fit mixed-effects model primingHeid.lmer = lmer(RT ~ RTtoPrime * ResponseToPrime + Condition + (1|Subject) + (1|Word), data = primingHeid) mcmc = pvals.fnc(primingHeid.lmer, nsim=10000, withMCMC=TRUE) #Subjects are in both …

3
Rでbetareg関数を使用して混合モデルを実装する方法は?
私は、個々のオタマジャクシの「活動レベル」を測定する比率で構成されるデータセットを持っているため、値は0と1の間でバインドされます。このデータは、特定の時間間隔(移動の場合は1動きがない場合は0)、平均して個人ごとに1つの値を作成します。私の主な固定効果は「密度レベル」でしょう。 私が直面している問題は、変量効果として含めたい因子変数「池」があることです。池の違いは気にしませんが、統計的に考慮します。池に関する重要な点の1つは、池が3つしかないことです。ランダムな効果を処理するときは、より多くの因子レベル(5+)を持つことが理想的であることを理解しています。 可能であれば、Rを使用して、betareg()またはbetamix()Rで混合モデルを実装する方法についてアドバイスをお願いします。Rのヘルプファイルを読んだことがあるのですが、通常、それらを理解するのは難しいと感じます(各引数パラメーターが実際に意味するところ)私自身のデータと、生態学的な意味での出力値の意味)ので、例を介してよりよく働く傾向があります。 関連するノートでは、代わりにglm()二項ファミリーの下でロジットリンクを使用して、この種のデータで変量効果を説明できるかどうか疑問に思っていました。


1
nlmer()を使用して反復測定データの非線形混合効果モデルをどのように近似しますか?
私は繰り返し測定データを分析しようとしており、それをで機能させるのに苦労していRます。私のデータは基本的に次のとおりです。2つの治療グループがあります。各グループのすべての被験者は毎日テストされ、スコア(テストの正解率)が与えられます。データは長い形式です: Time Percent Subject Group 1 0 GK11 Ethanol 2 0 GK11 Ethanol 3 0 GK11 Ethanol 4 0 GK11 Ethanol 5 0 GK11 Ethanol 6 0 GK11 Ethanol データはロジスティック曲線に似ており、被験者は数日間非常にうまく機能せず、その後急速に改善し、その後プラトーになります。処理がテストパフォーマンス曲線に影響を与えるかどうかを知りたいのですが。私の考えはnlmer()、のlme4パッケージで使用することでしたR。以下を使用して、グループごとに線を合わせることができます。 print(nm1 <- nlmer(Percent ~ SSlogis(Time,Asym, xmid, scal) ~ Asym | Subject, salinedata, start = c(Asym =.60, xmid = 23, scal …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.