タグ付けされた質問 「random-effects-model」

共変量の特定のレベルに関連付けられているパラメーターは、レベルの「影響」と呼ばれることがあります。観察されるレベルがすべての可能なレベルのセットからのランダムなサンプルを表す場合、これらの効果を「ランダム」と呼びます。

2
変量効果モデルでは効果が入力変数と無相関である必要があるのに、固定効果モデルでは相関が可能になるのはなぜですか?
ウィキペディアから 個々の特定の効果について行われる2つの一般的な仮定は、変量効果の仮定と固定効果の仮定です。変量効果の仮定(変量効果モデルで作成)は、個々の特定の効果が独立変数と無相関であることです。固定効果の仮定は、個々の特定の効果が独立変数と相関しているというものです。変量効果の仮定が成り立つ場合、変量効果モデルは固定効果モデルよりも効率的です。ただし、この仮定が成り立たない場合(つまり、ダービンワトソン検定が失敗した場合)、変量効果モデルは一貫していません。 変量効果モデルでは変量効果が入力変数と無相関である必要があるのに、固定効果モデルでは効果を入力変数と相関させることができるのはなぜですか。 ありがとう!

5
混合効果モデルを使用するのはいつですか?
線形混合効果モデルは、グループで収集および要約されるデータの線形回帰モデルの拡張です。主な利点は、係数が1つ以上のグループ変数に対して変化する可能性があることです。 しかし、混合効果モデルをいつ使用するかと悩んでいますか?極端なケースのおもちゃの例を使用して、質問を詳しく説明します。 動物の身長と体重をモデル化し、種をグループ化変数として使用するとします。 異なるグループ/種が本当に異なる場合。犬と象を言う。混合効果モデルを使用する意味はないと思います。グループごとにモデルを作成する必要があります。 異なるグループ/種が本当に類似している場合。雌犬と雄犬と言います。モデルのカテゴリ変数として性別を使用したいと思うかもしれません。 では、中間のケースでは混合効果モデルを使用する必要があると思いますか?たとえば、グループは猫、犬、ウサギで、サイズは似ていますが異なる動物です。 混合効果モデルをいつ使用するか、つまりどのように線を引くかを示唆する正式な議論はありますか 各グループのモデルを構築する 混合効果モデル グループを回帰のカテゴリ変数として使用する 私の試み:方法1は最も「複雑なモデル」/自由度が低く、方法3は最も「単純なモデル」/自由度が高いです。そして、混合効果モデルが真ん中にあります。Bais Variance Trade Offに従って、適切なモデルを選択するために必要なデータ量と複雑なデータを検討する場合があります。

1
mgcv gamでのランダムな効果による予測
私は、mgcvのgamを使用して総漁獲量をモデル化し、個々の船(時間の経過とともに繰り返し漁業を行う)の単純なランダム効果をモデル化することに興味があります。私は98科目を持っているので、ランダム効果をモデル化するためにgammではなくgamを使用すると思いました。私のモデルは: modelGOM <- gam(TotalFish ~ factor(SetYear) + factor(SetMonth) + factor(TimePeriod) + s(SST) + s(VesselID, bs = "re", by = dum) + s(Distance, by = TimePeriod) + offset(log(HooksSet)), data = GOM, family = tw(), method = "REML") 私はbs = "re"とby = dumでランダム効果をコード化しました(これにより、予測値またはゼロでの血管効果を予測できるようになります)。"dum"は1のベクトルです。 モデルは実行されますが、予測に問題があります。予測のために血管の1つ(Vessel21)を選択し、予測に関心のある予測子(距離)以外のすべての平均値を選択しました。 data.frame("Distance"=seq(min(GOM$Distance),max(GOM$Distance),length = 100), "SetYear" = '2006', "SetMonth" = …

2
ランダム効果を追加すると係数推定に影響します
変量効果は分散(誤差)にのみ影響し、固定効果は平均にのみ影響することを常に教えられてきました。しかし、ランダムな効果が平均にも影響を与える例を見つけました-係数推定: require(nlme) set.seed(128) n <- 100 k <- 5 cat <- as.factor(rep(1:k, each = n)) cat_i <- 1:k # intercept per kategorie x <- rep(1:n, k) sigma <- 0.2 alpha <- 0.001 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) plot(x, y) # simulate missing data y[c(1:(n/2), …

1
混合効果モデルにおける連続ランダム因子の効果を理解する
観測が独立しておらず、部分的なプールのみであると効果的に想定して、ランダムな効果のレベルごとに観測の部分的なプールを実行するという点で、混合効果モデルに対するカテゴリーのランダムな効果の影響を理解しています。また、私の理解では、このようなモデルでは、同じ変量効果レベルを共有するが固定効果レベルが異なる観測値は、変量効果レベルと固定効果レベルの両方が異なる観測値を上回ります。 それでは、連続ランダム因子の影響は何ですか?ランダム効果のないモデルが固定効果の効果サイズXを示したとすると、固定効果のさまざまなレベルでの観測がランダム効果の連続体の遠端からのものである場合、効果サイズは次のように小さくなります。ランダムファクターを含むモデルですが、異なる固定ファクターレベルの観測値に同様のランダムエフェクト値がある場合、エフェクトサイズは増加しますか?

3
固定効果とランダム効果
私はごく最近、一般化線形混合モデルについて学び始め、Rを使用して、グループメンバーシップを固定効果またはランダム効果のどちらとして扱うかによってどのような違いがあるかを調査しました。特に、ここで説明するデータセットの例を見ています。 http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm http://www.ats.ucla.edu/stat/r/dae/melogit.htm このチュートリアルで概説されているように、Doctor IDの効果はかなりのものであり、ランダムなインターセプトを備えた混合モデルがより良い結果をもたらすと期待していました。ただし、2つの方法のAIC値を比較すると、このモデルの方が悪いことがわかります。 > require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv") > hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married) > GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM) Call: glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, data = hdp) Deviance Residuals: Min 1Q Median 3Q Max -2.5265 -0.6278 …

1
交差する変量効果と不均衡データ
2つの交差したランダム効果があると思われるデータをモデリングしています。しかし、データセットはバランスが取れておらず、それを説明するために何をする必要があるのか​​わかりません。 私のデータは一連のイベントです。イベントは、クライアントがプロバイダーと会ってタスクを実行するときに発生します。何千ものクライアントとプロバイダーがあり、各クライアントとプロバイダーはさまざまな数のイベント(約5〜500)に参加しています。各クライアントとプロバイダーにはある程度のスキルがあり、タスクが成功する可能性は両方の参加者のスキルの関数です。クライアントとプロバイダーの間に重複はありません。 クライアントとプロバイダーの人口のそれぞれの差異に興味があるので、どのソースが成功率に大きな影響を与えるかを知ることができます。また、私たちが実際にデータを持っているクライアントとプロバイダー間のスキルの具体的な値を知り、最良または最悪のクライアントまたはプロバイダーを特定したいと考えています。 最初は、成功の確率はクライアントとプロバイダーのスキルレベルの組み合わせによってのみ決定され、他の固定効果はないと仮定したいと思います。したがって、xがクライアントの係数であり、yがプロバイダーの係数であるとすると、Rでは(パッケージlme4を使用)、次のように指定されたモデルがあります。 glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events) 1つの問題は、クライアントがプロバイダー間で均等に分散されていないことです。スキルの高いクライアントは、スキルの高いプロバイダーと一致する可能性が高くなります。私の理解は、変量効果はモデル内の他の予測子と無相関でなければならないということですが、それをどのように説明するかわかりません。 また、一部のクライアントとプロバイダーはイベントが非常に少ない(10未満)一方で、多くのイベント(最大500)があるため、各参加者のデータ量は広範囲に広がっています。理想的には、これは各参加者のスキル推定値の周りの「信頼区間」に反映されます(信頼区間という用語はここでは完全に正しくないと思います)。 データのバランスが取れていないため、交差したランダム効果は問題になりますか?もしそうなら、私が考慮すべき他のいくつかのアプローチは何ですか?


2
変量効果モデルのクラスターあたりの最小サンプルサイズ
変量効果モデルのクラスターごとの観測数に合理性はありますか?交換可能なランダム効果としてモデル化された700個のクラスターのサンプルサイズが1,500です。少数ではあるが大きなクラスターを構築するために、クラスターをマージするオプションがあります。各クラスターの変量効果を予測する上で意味のある結果を得るために、クラスターごとの最小サンプルサイズをどのように選択できるのでしょうか。これを説明する良い紙はありますか?

1
混合効果ロジスティック回帰からの固定効果の解釈
混合効果ロジスティック回帰についてのUCLA Webページのステートメントに混乱しています。それらは、そのようなモデルのフィッティングからの固定効果係数の表を示し、下の最初の段落は、通常のロジスティック回帰とまったく同じように係数を解釈するようです。しかし、彼らがオッズ比について話すとき、彼らは変量効果を条件としてそれらを解釈しなければならないと言います。対数オッズの解釈が指数値と異なるのは何ですか? 「その他すべてを一定に保つ」ことも必要ではないでしょうか? このモデルから固定効果係数を解釈する適切な方法は何ですか?変量効果の期待値はゼロであるため、私は常に「通常の」ロジスティック回帰から何も変化がないという印象を受けました。したがって、変量効果の有無にかかわらず、ログオッズとオッズ比をまったく同じに解釈しました-SEのみが変更されました。 推定は本質的にいつものように解釈することができます。たとえば、IL6の場合、IL6の1単位の増加は、寛解の予想対数オッズの.053単位の減少に関連付けられています。同様に、結婚している、または結婚したまま生活している人は、独身の人よりも.26対数寛解の確率が高いと予想されます。 多くの人々はオッズ比を解釈することを好みます。ただし、これらは混合効果がある場合、より微妙な意味を帯びます。通常のロジスティック回帰では、オッズ比は、他のすべての予測子を固定した期待オッズ比です。これは、結婚などの「純粋な」効果や、関心のある主要な予測因子が何であれ、「純粋な」効果を得るために、年齢などの他の効果を統計的に調整することに関心があることが多いため、これは理にかなっています。同じことが混合効果ロジスティックモデルにも当てはまります。その他すべてを固定することには、変量効果を固定することが含まれます。つまり、ここでのオッズ比は、年齢とIL6を一定に保つ人と、同じ医師または同じ変量効果を持つ医師を持つ人の条件付きオッズ比です。

2
REML対ML stepAIC
AICを使用して最適なモデルを選択した後、混合モデル分析を実行する方法に関する文献を調べようとしたところ、私は圧倒されました。私のデータはそれほど複雑ではないと思いますが、私が行ったことが正しいことの確認を求めており、次に進む方法についてアドバイスします。lmeとlmerのどちらを使用する必要があるのか​​、またREMLとMLのどちらを使用する必要があるのか​​、どちらを使用するのかわかりません。 選択の値があり、どの共変量がその値に最も影響を与え、予測を可能にするかを知りたいです。以下は、私が作業しているテストのサンプルデータとコードの一部です。 ID=as.character(rep(1:5,3)) season=c("s","w","w","s","s","s","s","w","w","w","s","w","s","w","w") time=c("n","d","d","n","d","d","n","n","n","n","n","n","d","d","d") repro=as.character(rep(1:3,5)) risk=runif(15, min=0, max=1.1) comp1=rnorm(15, mean = 0, sd = 1) mydata=data.frame(ID, season, time, repro, risk, comp1) c1.mod1<-lmer(comp1~1+(1|ID),REML=T,data=mydata) c1.mod2<-lmer(comp1~risk+(1|ID),REML=T,data=mydata) c1.mod3<-lmer(comp1~season+(1|ID),REML=T,data=mydata) c1.mod4<-lmer(comp1~repro+(1|ID),REML=T,data=mydata) c1.mod5<-lmer(comp1~time+(1|ID),REML=T,data=mydata) c1.mod6<-lmer(comp1~season+repro+time+(1|ID),REML=T,data=mydata) c1.mod7<-lmer(comp1~risk+season+season*time+(1|ID),REML=T,data=mydata) 私は、さまざまな組み合わせと最大2ウェイの相互作用項でこのデータを探索する最大19のモデルを持っていますが、常に変量効果としてIDを使用し、従属変数としてcomp1を使用しています。 Q1。どちらを使用しますか?lmeまたはlmer?それは重要ですか? これらの両方で、MLまたはREMLを使用するオプションがあり、劇的に異なる答えが得られます-MLの後にAICを使用すると、6つのモデルがすべて同じAIC値で終わり、モデルの組み合わせは単に意味がありませんが、REML最も可能性の高いモデルの2つが最良の結果になります。ただし、REMLを実行すると、anovaを使用できなくなります。 Q2。ANOVAで使用するためにREMLよりもMLを使用する主な理由は何ですか?これは私には分かりません。 それでもstepAICを実行できないか、19のモデルを絞り込む別の方法がわかりません。 Q3。この時点でstepAICを使用する方法はありますか?

3
冗長性を処理するランダム効果モデル
私は、繰り返されるバイナリ結果を使用して、イベント発生までの時間を分析しようとしています。イベント発生までの時間を日数で測定するとしますが、ここでは時間を週単位で離散化するとします。繰り返しバイナリ結果を使用して、カプラン・マイヤー推定量を近似したい(ただし、共変量は可能)。これは遠回りの方法のように見えますが、これが通常の結果や繰り返し発生するイベントにどのように拡張されるかを調査しています。 3週間で打ち切られた誰かが000、4wで打ち切られた誰かが0000、5wで失敗した対象が0000111111111111 ...のようなバイナリシーケンスを作成した場合(1は、最後の対象があった点まで拡張されます)研究で続いています)、1の週固有の比率を計算すると、通常の累積発生率を得ることができます(変数の打ち切り時間に到達するまで、これは概算のみですが、カプランマイヤー累積発生率推定と等しくありません)。 上記のように時間を離散化する代わりに、時間内のスプラインを使用する代わりに、GEEを使用してバイナリロジスティックモデルを使用して、繰り返されたバイナリの観測を近似できます。クラスターサンドイッチ共分散推定器は、適切に機能します。しかし、混合効果モデルを使用して、より正確な推論を得たいと思います。問題は、最初の1の後の1が冗長であることです。だれでも、変量効果を指定する方法、または標準誤差が収縮しないように冗長性を考慮に入れるモデルを指定する方法を知っていますか? エフロンはリスクセットの条件付き確率を推定するためにロジスティックモデルを使用していたため、この設定はエフロンとは異なります。無条件の確率を推定しています。

2
縦断的研究で平均治療効果を推定する最良の方法は何ですか?
縦断的研究では、ユニット結果が時点で繰り返し測定され、合計固定測定機会があります(固定=ユニットの測定は同時に行われます)。YitYitY_{it}iiitttmmm 単位は、治療、または対照群いずれかにランダムに割り当てられます。治療の平均的な効果を推定してテストしたいと思います。つまり、時間と個人全体で期待値が得られます。この目的のために、固定された機会のマルチレベル(混合効果)モデルの使用を検討します。G=1G=1G=1G=0G=0G=0ATE=E(Y|G=1)−E(Y|G=0),ATE=E(Y|G=1)−E(Y|G=0),ATE=E(Y | G=1) - E(Y | G=0), Yit=α+βGi+u0i+eitYit=α+βGi+u0i+eitY_{it} = \alpha + \beta G_i + u_{0i} + e_{it} インターセプト、、ユニットにわたってランダム切片、及び残差を。αα\alphaββ\betaATEATEATEuuueee 今、私は代替モデルを検討しています Yit=β~Gi+∑j=1mκjdij+∑j=1mγjdijGi+u~0i+e~itYit=β~Gi+∑j=1mκjdij+∑j=1mγjdijGi+u~0i+e~itY_{it} = \tilde{\beta} G_i + \sum_{j=1}^m \kappa_j d_{ij} + \sum_{j=1}^m \gamma_j d_{ij} G_i + \tilde{u}_{0i} + \tilde{e}_{it} これは固定効果が含ま都度のためのダミー場合と他。さらに、このモデルには、パラメータを使用した治療と時間の相互作用が含まれています。したがって、このモデルでは、の影響が時間の経過とともに異なる可能性があることを考慮しています。これ自体は参考情報ですが、の不均一性が考慮されるため、パラメーターの推定の精度も向上するはずです。κjκj\kappa_jtttdt=1dt=1d_t=1j=tj=tj=t000γγ\gammaGGGYYY ただし、このモデルでは、係数はと等しくないようです。代わりに、最初にATEを表します()。推定だからよりも効率的かもしれが、それは表していませんもう。β~β~\tilde{\beta}ATEATEATEt=1t=1t=1β~β~\tilde{\beta}ββ\betaATEATEATE 私の質問は: この縦断的研究デザインで治療効果を推定する最良の方法は何ですか? モデル1を使用する必要がありますか、それとも(おそらくより効率的な)モデル2を使用する方法はありますか? にの解釈との機会固有の偏差を持たせる方法はありますか(たとえば、エフェクトコーディングを使用して)?β~β~\tilde{\beta}ATEATEATEγγ\gamma

1
モデルにランダム効果を含める場合
私は混合モデリングに不慣れで、私が行っている分析でランダム効果を使用することが適切かどうかについて混乱しています。任意のアドバイスをいただければ幸いです。 私の研究は、新しく開発された哺乳類の存在量の指標が、確立されているがより労働集約的な指標の価値をどれだけうまく予測できるかをテストしています。私はこれらの指標を複数の森林パッチで測定しており、各森林パッチに複数のプロットがあります。 フォレストパッチの効果には直接興味がなく、サンプルプロットがフォレストパッチ内にネストされているため、ランダムエフェクトとしてフォレストパッチを使用しています。ただし、これについていくつか質問があります。 まず、ランダム効果は、サンプリングしたものだけでなく、ランダム因子のすべての可能なレベルにわたって結果を一般化できることを知っています。しかし、この種の推論を行うには、レベルをランダムにサンプリングする必要があるように思えますか?フォレストパッチがランダムにサンプリングされなかったので、ランダムエフェクトとして使用できますか? 次に、Iは、たとえば、影響のあるモデルとないモデルを比較するための尤度比テストを行うことにより、ランダムな効果が必要かどうかをテストできることを読みました。私はこれを実行しましたが、変量効果モデルは固定効果のみのモデルと同様にデータを説明しないことを示唆しています。これに関する私の問題は、私のプロットがまだフォレストパッチ内にネストされているため、おそらく独立していないことです。したがって、このLRTアプローチを使用してランダム効果を除外することを正当化できますか、それともネストネスを説明するためにそれを含める必要がありますか?そして、ランダムな効果を削除してしまう場合、フォレストパッチ内のプロットが独立していると見なすことができることを確認する方法はありますか? ご協力いただきありがとうございます! ジェイ

1
ランダムなスロープ効果の導入によりスロープのSEが拡大したのはなぜですか?
個人の特定のグループ(3つのグループがあります)の変数logIndに対する年の影響を分析しようとしています。最も単純なモデル: > fix1 = lm(logInd ~ 0 + Group + Year:Group, data = mydata) > summary(fix1) Call: lm(formula = logInd ~ 0 + Group + Year:Group, data = mydata) Residuals: Min 1Q Median 3Q Max -5.5835 -0.3543 -0.0024 0.3944 4.7294 Coefficients: Estimate Std. Error t value Pr(>|t|) Group1 4.6395740 0.0466217 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.