タグ付けされた質問 「mixed-model」

混合(別名マルチレベルまたは階層)モデルは、固定効果と変量効果の両方を含む線形モデルです。これらは、長期的またはネストされたデータをモデル化するために使用されます。

1
全体的な切片なしでlme4の多変量混合モデルの係数を解釈する方法は?
多変量(つまり、複数の応答)の混合モデルをで近似しようとしていRます。ASReml-rおよびSabreRパッケージ(外部ソフトウェアが必要)を除いて、これはでのみ可能であるようMCMCglmmです。パッケージに付属する論文MCMCglmm(pp.6)で、Jarrod Hadfieldは、そのようなモデルを複数の応答変数を1つの長い形式の変数に再形成し、全体的なインターセプトを抑制するようにフィッティングするプロセスについて説明しています。私の理解では、切片を抑制すると、応答変数の各レベルの係数の解釈がそのレベルの平均になるように変更されます。したがって、上記を前提として、多変量混合モデルを当てはめることは可能lme4ですか?例えば: data(mtcars) library(reshape2) mtcars <- melt(mtcars, measure.vars = c("drat", "mpg", "hp")) library(lme4) m1 <- lmer(value ~ -1 + variable:gear + variable:carb + (1 | factor(carb)), data = mtcars) summary(m1) # Linear mixed model fit by REML # Formula: value ~ -1 + variable:gear + variable:carb + (1 | factor(carb)) …

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
交差する変量効果と不均衡データ
2つの交差したランダム効果があると思われるデータをモデリングしています。しかし、データセットはバランスが取れておらず、それを説明するために何をする必要があるのか​​わかりません。 私のデータは一連のイベントです。イベントは、クライアントがプロバイダーと会ってタスクを実行するときに発生します。何千ものクライアントとプロバイダーがあり、各クライアントとプロバイダーはさまざまな数のイベント(約5〜500)に参加しています。各クライアントとプロバイダーにはある程度のスキルがあり、タスクが成功する可能性は両方の参加者のスキルの関数です。クライアントとプロバイダーの間に重複はありません。 クライアントとプロバイダーの人口のそれぞれの差異に興味があるので、どのソースが成功率に大きな影響を与えるかを知ることができます。また、私たちが実際にデータを持っているクライアントとプロバイダー間のスキルの具体的な値を知り、最良または最悪のクライアントまたはプロバイダーを特定したいと考えています。 最初は、成功の確率はクライアントとプロバイダーのスキルレベルの組み合わせによってのみ決定され、他の固定効果はないと仮定したいと思います。したがって、xがクライアントの係数であり、yがプロバイダーの係数であるとすると、Rでは(パッケージlme4を使用)、次のように指定されたモデルがあります。 glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events) 1つの問題は、クライアントがプロバイダー間で均等に分散されていないことです。スキルの高いクライアントは、スキルの高いプロバイダーと一致する可能性が高くなります。私の理解は、変量効果はモデル内の他の予測子と無相関でなければならないということですが、それをどのように説明するかわかりません。 また、一部のクライアントとプロバイダーはイベントが非常に少ない(10未満)一方で、多くのイベント(最大500)があるため、各参加者のデータ量は広範囲に広がっています。理想的には、これは各参加者のスキル推定値の周りの「信頼区間」に反映されます(信頼区間という用語はここでは完全に正しくないと思います)。 データのバランスが取れていないため、交差したランダム効果は問題になりますか?もしそうなら、私が考慮すべき他のいくつかのアプローチは何ですか?

2
混合効果モデルとの相互作用項で事後比較を実行するにはどうすればよいですか?
堆積物の微生物活動に対する乾燥の影響を評価するために、データセットを作成しています。目的は、乾燥の影響が堆積物の種類や堆積物内の深さによって異なるかどうかを判断することです。 実験計画は次のとおりです。 最初の要素の堆積物は、3種類の堆積物(コード化されたSed1、Sed2、Sed3)に対応します。堆積物の種類ごとに、3つのサイト(Sed1の3サイト、Sed2の3サイト、Sed3の3サイト)でサンプリングが行われました。 サイトはコード化されています:Site1、Site2、...、Site9。 次の要素は水文学です。各サイト内で、サンプリングはドライプロットとウェットプロット(コードされたドライ/ウェット)で実行されます。 上記の各プロット内で、サンプリングは2つの深度(D1、D2)で3 回実行されます。 合計n = 108サンプル= 3堆積物* 3サイト* 2水文学* 2深度* 3反復があります。 私lme()はR の関数(nlmeパッケージ)を次のように使用します。 Sediment <- as.factor(rep(c("Sed1","Sed2","Sed3"),each=36)) Site <- as.factor(rep(c("Site1","Site2","Site3","Site4","Site5", "Site6","Site7","Site8","Site9"),each=12)) Hydrology <- as.factor(rep(rep(c("Dry","Wet"),each=6),9)) Depth <- as.factor(rep(rep(c("D1","D2"),each=3),18)) Variable <- rnorm(108) mydata <- data.frame(Sediment,Site,Hydrology,Depth,Variable) mod1 <- lme(Variable ~ Sediment*Hydrology*Depth, data=mydata, random=~1|Site/Hydrology/Depth) anova(mod1) 事後比較を実行して、用語が重要かどうかをテストします。 簡単な主な効果(たとえば、堆積物)のためにそれを行うことができます。 summary(glht(mod1,linfct=mcp(Sediment="Tukey"))) ただし、このglht()関数は交互作用項では機能しません。 私は次のことが2ウェイanovaで機能することを発見しました: mod1 …

1
混合モデルの予測子として時間を含めることはできますか?
時間は回帰(gamを含む)の予測子として使用するべきではないと常に信じていました。なぜなら、傾向そのものを単に「説明」するからです。研究の目的が、たとえば動物の活動の変動を説明する温度などの環境パラメータを見つけることである場合、時間はどのように役立つのでしょうか。測定されていないパラメータのプロキシとして? 港湾魚類の活動データの時間のいくつかの傾向をここで見ることができます:-> GAMMを行うときに時系列のギャップを処理する方法? 私の問題は、モデルに時間を含めると(ユリウス日で測定)、他のすべてのパラメーターの90%が重要でなくなる(mgcvからのts収縮がよりスムーズになる)。私がタイムアウトを残した場合、それらのいくつかは重要です... 問題は、予測変数として時間を許可されているか(多分必要なのか?)、それとも分析をめちゃくちゃにしているのでしょうか。 事前に感謝します

2
縦断的データ:時系列、繰り返し測定、その他
平易な英語で: 私は重回帰またはANOVAモデルを持っていますが、各個人の応答変数は時間の曲線関数です。 右側の変数のどれが曲線の形状または垂直オフセットの大きな違いの原因であるかをどのようにして知ることができますか? これは時系列の問題、反復測定の問題、それともまったく別の問題ですか? そのようなデータを分析するためのベストプラクティスは何ですか(できればでR、他のソフトウェアを使用することもできます)? より正確に言えば: レッツは、私がモデル持っていると言うが、Y I jは、kは、実際にデータ-のシリーズです数値変数として記録された、多くの時点tで同じ個体kから収集された点。データをプロットすると、個々のy i j k tyijk=β0+β1xi+β2xj+β3xixj+ϵkyijk=β0+β1xi+β2xj+β3xixj+ϵky_{ijk} = \beta_0 + \beta_1 x_i + \beta_2 x_j + \beta_3 x_i x_j + \epsilon_kyijkyijky_{ijk}kkktttyijktyijkty_{ijkt}垂直オフセット、形状、または周波数(循環の場合)が共変量に大きく依存する可能性がある時間の2次関数または循環関数です。共変量は時間の経過とともに変化しません。つまり、データ収集期間中、個体の体重または治療グループは一定です。 これまでのところ、私は次のRアプローチを試しました: マノバ Anova(lm(YT~A*B,mydata),idata=data.frame(TIME=factor(c(1:10))),idesign=~TIME); ...ここYTで、列は時間ポイントである行列です。この例では10個ですが、実際のデータでははるかに多くなります。 問題:これは時間を要因として扱いますが、時間点は各個人に対して正確に一致しません。さらに、サンプルサイズに対してそれらの多くが存在するため、モデルは飽和します。時間の経過に伴う応答変数の形状は無視されているようです。 混合モデル(PinheiroとBatesと同様、SとS-Plusの混合効果モデル) lme(fixed=Y~ A*B*TIME + sin(2*pi*TIME) + cos(2*pi*TIME), data=mydata, random=~(TIME + sin(2*pi*TIME) + cos(2*pi*TIME))|ID), method='ML') ... IDデータを個人別にグループ化する要素です。この例では、応答は時間とともに循環しますが、代わりに2次項や時間の他の関数が存在する可能性があります。 問題:各時間項が必要かどうか(特に2次項の場合)、どの共変量の影響を受けるかはわかりません。 でstepAIC()、それらを選択するための良い方法は? …

2
混合モデル(変量効果としての主題)と単純な線形モデル(固定効果としての主題)の比較
大量のデータの分析を終えています。作業の最初の部分で使用された線形モデルを取得し、線形混合モデル(LME)を使用して再適合させたいと思います。LMEは非常に似ていますが、モデルで使用される変数の1つが変量効果として使用される点が異なります。このデータは、少数の被験者(〜10)の多くの観測(> 1000)から得られ、被験者の効果のモデリングはランダム効果(これはシフトしたい変数です)として行う方がよいことを知っています。Rコードは次のようになります。 my_modelB <- lm(formula = A ~ B + C + D) lme_model <- lme(fixed=A ~ B + C, random=~1|D, data=my_data, method='REML') すべてが正常に実行され、結果は非常に似ています。RLRsimやAIC / BICのようなものを使用して、これら2つのモデルを比較し、どちらが最も適切であるかを判断できれば、すばらしいと思います。LMEの方が適切なモデルだと思いますが、同僚が「より良い」ものを選択する簡単にアクセスできる方法がないため、LMEを報告したくありません。助言がありますか?

4
混合モデルのアイデアとベイズ法
混合モデルでは、変量効果(パラメーター)は正規分布に従う確率変数であると想定します。これは、すべてのパラメータがランダムであると見なされるベイズ法に非常に似ています。 では、変量効果モデルはベイジアン法の特殊なケースですか?



2
変量効果モデルのクラスターあたりの最小サンプルサイズ
変量効果モデルのクラスターごとの観測数に合理性はありますか?交換可能なランダム効果としてモデル化された700個のクラスターのサンプルサイズが1,500です。少数ではあるが大きなクラスターを構築するために、クラスターをマージするオプションがあります。各クラスターの変量効果を予測する上で意味のある結果を得るために、クラスターごとの最小サンプルサイズをどのように選択できるのでしょうか。これを説明する良い紙はありますか?

1
混合効果ロジスティック回帰からの固定効果の解釈
混合効果ロジスティック回帰についてのUCLA Webページのステートメントに混乱しています。それらは、そのようなモデルのフィッティングからの固定効果係数の表を示し、下の最初の段落は、通常のロジスティック回帰とまったく同じように係数を解釈するようです。しかし、彼らがオッズ比について話すとき、彼らは変量効果を条件としてそれらを解釈しなければならないと言います。対数オッズの解釈が指数値と異なるのは何ですか? 「その他すべてを一定に保つ」ことも必要ではないでしょうか? このモデルから固定効果係数を解釈する適切な方法は何ですか?変量効果の期待値はゼロであるため、私は常に「通常の」ロジスティック回帰から何も変化がないという印象を受けました。したがって、変量効果の有無にかかわらず、ログオッズとオッズ比をまったく同じに解釈しました-SEのみが変更されました。 推定は本質的にいつものように解釈することができます。たとえば、IL6の場合、IL6の1単位の増加は、寛解の予想対数オッズの.053単位の減少に関連付けられています。同様に、結婚している、または結婚したまま生活している人は、独身の人よりも.26対数寛解の確率が高いと予想されます。 多くの人々はオッズ比を解釈することを好みます。ただし、これらは混合効果がある場合、より微妙な意味を帯びます。通常のロジスティック回帰では、オッズ比は、他のすべての予測子を固定した期待オッズ比です。これは、結婚などの「純粋な」効果や、関心のある主要な予測因子が何であれ、「純粋な」効果を得るために、年齢などの他の効果を統計的に調整することに関心があることが多いため、これは理にかなっています。同じことが混合効果ロジスティックモデルにも当てはまります。その他すべてを固定することには、変量効果を固定することが含まれます。つまり、ここでのオッズ比は、年齢とIL6を一定に保つ人と、同じ医師または同じ変量効果を持つ医師を持つ人の条件付きオッズ比です。

1
予測にランダム効果を含めずに、混合効果モデルから予測するのはなぜですか?
これはより概念的な質問ですが、私が使用するRときはのパッケージを参照しますR。予測の目的で線形モデルを適合させることを目的としていて、変量効果が利用できない可能性がある場合に予測を行う場合、混合効果モデルを使用するメリットはありますか、それとも代わりに固定効果モデルを使用する必要がありますか? たとえば、他の情報を使用して体重と身長のデータがあり、を使用して次のモデルを作成したlme4場合、subjectはレベルの因子()です。nnnn=no.samplesn=no.samplesn=no.samples mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F) 次に、新しい身長と年齢のデータを使用して、モデルから体重を予測できるようにしたいと考えています。明らかに、元のデータの被験者ごとの分散がモデルに取り込まれますが、この情報を予測に使用することは可能ですか?新しい身長と年齢のデータがあり、体重を予測したい場合は、次のようにして行います。 predict(mod1,newdata=newdf) # newdf columns for height, age, subject これが使用されますpredict.merMod、と私はどちらか(新しい)の被験者のための列含むことができnewdf、またはセットをre.form =~0。最初の例では、モデルが「新しい」主題因子をどのように処理するかが明確ではありません。2番目の例では、モデルでキャプチャされた主題別の分散は、予測に対して単に無視(平均)されますか? どちらの場合でも、固定効果の線形モデルの方が適しているように思えます。実際、私の理解が正しければ、変量効果が予測に使用されない場合、固定効果モデルは混合モデルと同じ値を予測するはずです。これは事実でしょうか?それRではありません、例えば: mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F) predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject 異なる結果が得られます。 mod2 <- lm(weight ~ …

1
lsmeansは、ポアソン混合モデル(glmerに適合)などの一般化線形モデルについて何を報告しますか?
私は計画された実験からの視線追跡データを分析しています。私のデータの簡略版は次のようになります(ここで dput()データを取得できます)、 head(lookDATA) participant fixationImage fixationCount 1 9 Automobile 81 2 9 Bird 63 3 9 Chair 82 4 9 Dog 64 5 9 Face 90 6 9 Plant 75 ここで、参加者は各サブジェクトの一意の識別子、fixationImageは固定した画像カテゴリ、fixationCountはその画像カテゴリに固定した回数です。 lme4パッケージの glmer()を使用して、ポアソンモデルをデータに適合させます。 model<-glmer(fixationCount ~ fixationImage + (1|participant), family = poisson, data = lookDATA) lsmeansパッケージの lsmeans()を使用して、因子レベル間の違いを調べました。 cld(lsmeans(model,"fixationImage")) 次の出力を提供します。 fixationImage lsmean …

2
説明変数の1つが2次および3次の項を持つ可能性がある場合、説明変数間の相互作用をどのようにモデル化すればよいですか?
私がこの質問を明確に回答できるように表現したことを心から望んでいます。もしそうでなければ、私に知らせて、もう一度やり直します!また、これらの分析にはRを使用することにも注意してください。 私がplant performance (Ys)課した4つの治療法の影響を受けたと思われるいくつかの測定値flower thinning (X1), fertilization (X2), leaf clipping (X3)がありbiased flower thinning (X4)ます- 、および。考えられるすべてのYについて、Nは少なくとも242なので、サンプルサイズが大きくなりました。すべてのプロットは間引きを行ったか、行わなかったかのいずれかですが、各プロットは他の3つの処理のうちの1つ(および1つのみ)も処理しました(または処理しませんでした-コントロールプロットもありました)。このデザインのアイデアは、他の3つの処理が、間引きの効果を「マスキング」または「強化」できるかどうかをテストすることでした。したがって、設計上、後者の3つの処理(X2〜X4)は交差しなかったため、互いに相互作用することはできませんでしたが、それぞれ花の間引きと相互作用することができます。 私の明確な仮説は、1)花が薄くなることは重要であり、2)X1*X2, X1*X3, and X1*X4,花が薄くなることと他の3つの処理の間の相互作用項も重要であることです。つまり、花の間引きは重要なはずですが、それが重要である方法は、他の3つの処理が何をしたかによって大幅に変更されるべきです。 このすべての情報を混合モデルに含めたいのですが。 Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects) しかし、ハングアップが1つあります。私は、Yの間引きの効果が非線形であることを信じる十分な理由があります。それらはおそらく2次式ですが、場合によっては3次式であることもあります。これは、間引きのパフォーマンスへの影響が、間引きのレベルが高いほど速く増加する可能性が高いためです。X1の2次および3次の項を追加することにより、上記の方程式を介してこの非線形関係をモデル化しようとすると、相互作用項をモデル化する方法がわかりません-X1の可能なすべての組み合わせ(X1)^ 2、(X1)^ 3 * X2、X3、X4?私が持っているデータポイントの数があったとしても、それは推定しようとする多くのパラメーターのようであり、得られる結果を解釈する方法がわかりません。とはいえ、これが状況をモデル化するための無作法な方法であると考える生物学的な理由はありません。 したがって、私はこの問題に対処する方法について3つの考えがあります。 たとえばY …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.