タグ付けされた質問 「mixed-model」

混合(別名マルチレベルまたは階層)モデルは、固定効果と変量効果の両方を含む線形モデルです。これらは、長期的またはネストされたデータをモデル化するために使用されます。

1
変量効果推定量の標本分布
lme4の変量効果推定器の分布は大きく歪んでいるため、標準誤差は報告されていません。誰かがこれに関する参照を提供できるかどうか疑問に思いますか?私はベイツとピンヘリオの本にはアクセスできますが、ローデンブッシュとブリークにはアクセスできません。発表された論文でも結構です。よろしくお願いします!

1
混合モデルを適用するこれらの2つのアプローチが異なる結果をもたらすのはなぜですか?
同僚のデータを再分析しています。データとRコードはこちら。 これは完全にSs内の2x2x2x2x3設計です。予測変数の1つcueは、2つのレベルの変数で、これを差分スコアに縮小すると、理論に関連する値が反映されます。彼女は以前cueに各被験者および状態内の差異スコアに折りたたみ、ANOVAを計算し、MSEを生成して、各状態の平均差異スコアのゼロに対する計画比較に使用できました。あなたは彼女が釣りをしていなかったこと、そして確かに24のテストすべてを行うための良い理論的根拠があったことを私を信頼する必要があります。 代わりに混合効果モデルを使用してデータを表す場合に違いがあるかどうかを確認したいと思いました。コードに示されているように、私は2つのアプローチを採用しました。 方法1-データを2x2x2x2x3設計としてモデル化し、このモデルから事後標本を取得し、cue各サンプル内の各条件の差分スコアを計算し、各条件内のキュー差分スコアの95%予測間隔を計算します。 方法2- cue各被験者と条件内の差異スコアに折りたたみ、データを2x2x2x3設計としてモデル化し、このモデルから事後標本を取得し、各条件内の手がかり差異スコアの95%予測間隔を計算します。 方法1は方法2よりも広い予測間隔をもたらすように見えます。その結果、「有意性」の基準としてゼロとのオーバーラップを使用すると、方法1ではキューイングスコアの25%のみが「有意」であり、キューイングスコアの75%になります。方法2で得られた有意性のパターンは、方法1で得られたパターンよりも、元のANOVAベースの結果に類似しています。 ここで何が起こっているのでしょうか?
8 r  mixed-model 


3
一部の混合モデルの変位値回帰統計手順にR実装はありますか?
分位点回帰の混合効果モデルを実行するための解決策を見つけたいのですが。 私のグーグル検索から、そのような手順のR実装を見つけることができませんでした(「これはかすかな心のためではない」という警告のみ)。 1つのx、1つのy、および1つの「対象」変数がある単純な状況を解決したいと思います。 これをどうするかについての提案はありますか?

2
lmeで変量効果を指定する方法は?
私はこれを何時間もオンラインで検索しましたが、探しているオンライン投稿はありません。私の質問はSAS Proc混合手順で実装するのは非常に簡単ですが、lmeおよび/またはlmerパッケージでそれを実行する方法がわかりません。というモデルがあるとします 。ここで、は固定されていますが、とはランダムです。私のRコードはy= μ + α + β+ α β+ ey=μ+α+β+αβ+ey = \mu + \alpha + \beta +\alpha\beta + eαα\alphaββ\betaα βαβ\alpha\beta f1 = lme(y ~ factor(a), data = mydata, random = list(factor(b) = ~ 1, factor(a):factor(b) = ~ 1)) エラー:予期=しない: f1 = lme(y ~ factor(a), data = mydata, random = …

1
混合モデル:ヘンダーソンの混合モデル方程式を導出する方法は?
Hendersonは、最良の線形不偏予測子(BLUP)のコンテキストで、混合モデル方程式を指定しました(Henderson(1950):Estimation of Genetic Parameters。Annals of Mathematical Statistics、21、309-310を参照)。次の混合効果モデルを想定します。 y=Xβ+Zu+ey=Xβ+Zu+ey = X\beta+Zu+e ここで、、ベクトルnは観察の確率変数であるのベクトルであり固定効果、および既知の行列であり、及びのベクトル再およびようにランダム効果とおよびyyyββ\betapppXXXZZZuuueeeqqqnnnE(u)=0E(u)=0E(u) = 0E(e)=0E(e)=0E(e) = 0 Va r [あなたe] = [G00R]σ2Var[ue]=[G00R]σ2 Var \begin{bmatrix} u \\ e \\ \end{bmatrix} = \begin{bmatrix} G & 0 \\ 0 & R \\ \end{bmatrix}\sigma^2 ここで、とは既知の正定行列であり、は正の定数です。GGGRRRσ2σ2\sigma^2 ヘンダーソン(1950)によれば、BLUPはの推定値の及びの方程式の以下の系の解として定義されます。β^β^\hat {\beta}ββ\betaあなた^u^\hat {u}あなたuu X′R−1Xβ^+X′R−1Zu^=X′R−1yX′R−1Xβ^+X′R−1Zu^=X′R−1yX'R^{-1}X\hat {\beta}+X'R^{-1}Z\hat {u} = X'R^{-1}y Z′R−1Xβ^+(Z′R−1Z+G−1)u^=Z′R−1yZ′R−1Xβ^+(Z′R−1Z+G−1)u^=Z′R−1yZ'R^{-1}X\hat {\beta}+(Z'R^{-1}Z + …

1
線形混合モデルにおける残差仮定の違反正規性
線形混合モデルでの残差仮定の正規性からの潜在的な違反についてどの程度懸念すべきかについて質問があります。私は比較的小さなデータセットを持っており、モデルを(Rで 'lmer'を使用して)フィッティングした後、Shapiro-Wilks検定は、正規分布からの残差の大きな偏差を明らかにします。私の変数の対数変換はこれを十分に処理しません。 これにどのように対処するかについての回答の検索で、正規性のテストを実施すべきではないというアドバイスに遭遇しました(ここで同様の質問に対する回答を参照してください)。代わりに、残差と同じNのランダムな通常データのQQプロットを実行して、残差のQQプロットが著しく異なるかどうかを確認することをお勧めします。私が見つけた他のアドバイスは、推論はLMMの仮定のさまざまな違反に対して堅牢であるように思われることを示唆しているようです (こちらのブログ投稿を参照)。 私の質問 1)これがあなたのデータだった場合、LMM残差の正規性の欠如について心配しますか(以下のデータと出力を参照)? 2)心配している場合、ログ変換後も心配していますか(ここでも、以下のデータと出力を参照してください)? 3)上記の両方の答えが「はい」の場合、残差の非正規性にどのように対処できますか? データと非変換分析 # load relevant library library(lme4) #--- declare the data study <- c(1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9, 10, 10, …

1
全体の平均勾配を推定せずにランダム勾配を推定することは適切ですか?
さまざまな都市の個人(グループ化変数)がいくつかの予測変数にどのように応答するかに違いがあるかどうかを推定しようとしています。したがって、実際には、各都市のについて学ぶことに興味があります。しかし、これらの推定値がいくつかのグループ平均に向かって「縮小」されるように、ランダムな勾配を使用したいと思います。ββ\beta 私が使用して私のモデルを適合していますstan_glmerから、stanarm同じように入力を受け付けるパッケージglmerからlme4。 それで、質問#1。グランドスロープを気にしない場合は、次のようにモデルを指定してもかまいません。 stan_glmer(Y ~ (V1 + V2 + V3|city)) または、最初に「固定効果」としてV1、V2、V3を含める必要がありますか?例えば stan_glmer(Y ~ V1 + V2 + V3 + (V1 + V2 + V3|city)) 2番目に、2番目のモデルが正しいオプションである場合(これは多少疑わしいです)、出力をどのように解釈すればよいですか?都市1のV1の勾配の推定値を取得するには、全体のを都市1の\ beta_ {v1}に追加しますか?その場合のエラーをどのように説明しますか?βv1βv1\beta_{v1}βv1βv1\beta_{v1} ありがとう!

1
被験者ごとに個別の回帰ではなく、ランダムな切片と勾配を使用することの違いは何ですか?
20人の参加者のDVとIVを記録しました。IVは反復測定であり、私の目標は、IVの変動がDVの変動をどのように説明できるかを確認することです。具体的には、各参加者のベータ係数が必要です。 私の最初の考えは、各被験者に対してランダムな切片とランダムな勾配を持つ線形混合効果モデルをセットアップすることでした。しかし、それから私は自分自身に尋ねました:なぜ20の個別の通常の線形回帰を実行できないのですか(固定効果のみ)? これら2つの方法で同じベータ係数を取得できますか?そうでない場合、違いはどこにありますか?

2
なぜ治療コーディングはランダムな傾きと切片の間の相関をもたらすのですか?
実験的処理変数に2つのレベル(条件)がある被験者内および項目内の要因計画を考えます。をm1最大モデルとm2非ランダム相関モデルにします。 m1: y ~ condition + (condition|subject) + (condition|item) m2: y ~ condition + (1|subject) + (0 + condition|subject) + (1|item) + (0 + condition|item) Dale Barr はこの状況について次のように述べています。 編集(2018年4月20日):Jake Westfallが指摘したように、次のステートメントはこの Webサイトの図1および2に示されているデータセットのみを参照しているようです。ただし、基調講演は変わりません。 偏差コーディング表現(条件:-0.5 vs. 0.5)m2では、被験者のランダムな切片が被験者のランダムな傾きと無相関である分布が可能です。最大モデルのみm1が、2つが相関している分布を許可します。 治療コーディング表現(条件:0対1)では、被験者のランダム切片が被験者のランダムな傾きと無相関であるこれらの分布は、無作為相関モデルを使用してフィッティングできません。治療コード表現における勾配と切片。 なぜ治療コーディングは 常に ランダムな傾きと切片の間に相関関係が生じますか?

2
SAS nlmixedとR nlmeで異なるモデルフィット結果が得られるのはなぜですか?
library(datasets) library(nlme) n1 <- nlme(circumference ~ phi1 / (1 + exp(-(age - phi2)/phi3)), data = Orange, fixed = list(phi1 ~ 1, phi2 ~ 1, phi3 ~ 1), random = list(Tree = pdDiag(phi1 ~ 1)), start = list(fixed = c(phi1 = 192.6873, phi2 = 728.7547, phi3 = 353.5323))) 私nlmeはR を使用して非線形混合効果モデルを適合させ、これが私の出力です。 > …
7 r  mixed-model  sas 

1
混合モデルでのt検定とF検定の大きな違い(anovaとlmerTestの要約)
lmerTestによって提供された、Rのlme4における線形混合モデルのt検定とF検定の違いに関する質問に遭遇しました。線形混合モデルのあらゆる種類のp値を計算する際の問題(主に自由度の定義に問題があることが原因であることがわかっているため)と、主な効果の解釈に関する問題を認識しています。重要な相互作用の存在(マージナリティの原則に基づく)。 簡単に言うと、データは2つの条件(合同TRUE / FALSE)の実験からのもので、6セットのセンサーで測定されます。これは、2つの要因の組み合わせとして説明できます。 。 以下の要約出力からわかるように、t.testは有意な合同効果(p = 0.12)を示しませんが、anova出力は非常に有意な合同効果(p = 2.8e-10)を示します。適合性には2つのレベルしかないため、これはF検定が固定因子のいくつかのレベルでオムニバステストを行った結果ではありません。したがって、何がanova出力に非常に重要な結果をもたらすのかはわかりません。これは、もちろんモデルのパラメータ化に主効果を含めることに依存する、合同性を伴う強い相互作用があるという事実によるものですか? CrossValidatedでこの質問に対する以前の回答を探しましたが、おそらくこの質問に対する最初の回答を除いて、関連するものを見つけることができませんでした。しかし、それが本当の答えを提供するのであれば、それは数学に内在しているので、私が助けようとしている人に説明できる概念的な答えを探しています。 > final.mod<-lmer(uV~1+factor(congruity)*factor(laterality)*factor(anteriority)+(1|sent.id)+(1|Subject),data=selected.data) > summary(final.mod) Linear mixed model fit by REML t-tests use Satterthwaite approximations to degrees of freedom ['lmerMod'] Formula: uV ~ 1 + factor(congruity) * factor(laterality) * factor(anteriority) + (1 | sent.id) + (1 | Subject) Data: selected.data …

1
混合モデルの経時変化に対するベースラインの影響?
いくつかのサンプル内で、混合モデルを使用して、この結果のベースライン値に依存する時間の経過に伴う結果の変化をモデル化することが可能かどうか、またどのように可能かと思っていましたか? たとえば、同じ知識グループが同じグループの人々に5回実行される状況を想像してみてください。質問は常に同じであるため、学生は時間の経過とともに正しい答えを学び、各行政機関でより高いスコアを獲得します。ただし、そもそもスコアが高い人は、スコアが低い人よりも変化が少ないでしょう。したがって、変化率がベースライン値に依存していることは明らかです。 混合モデルでは、一部の学生では他の学生よりも変化が大きいという事実を説明するために、ランダムな切片に加えて時間のランダムな勾配を含めることができることを知っています。しかし、最初の測定値をベースライン共変量(およびその時間との相互作用)として含めることは不可能または意味がないと私は思いますか?いずれにせよ、私には「感じ」られない。しかし、その一方で、固定効果を使用してベースライン値の効果を明示的にモデル化することは不可能だと私の心を揺さぶります。私はこれについて多少混乱していることを認めなければなりません。任意の助けをいただければ幸いです。

1
線形モデルにおける従属変数の異分散性と分布
私は、多変量olsモデルを実行しています。ここで、従属変数は食品消費スコアであり、特定の食品カテゴリの消費発生の加重和によって作成されたインデックスです。 モデルのさまざまな仕様を試し、予測子をスケーリングまたは対数変換しましたが、Breusch-Paganテストは常に強い不均一分散を検出します。 変数が省略される通常の原因は除外します。 特にログのスケーリングと正規化の後、外れ値は存在しません。 私はPolychoric PCAを適用して作成された3/4インデックスを使用していますが、OLSからそれらの一部またはすべてを除外しても、Breusch-Pagan出力は変更されません。 モデルで使用されるダミー変数はごくわずかです(通常)。性別、婚姻状況。 各領域のダミーを含めて制御し、ads-R ^ 2の点で異分散性領域を20%増やしても、サンプルの領域間で発生する高度の変動を検出します。 サンプルには20,000の観測があります。 問題は私の従属変数の分布にあると思います。私が確認できた限り、正規分布は私のデータの実際の分布の最も近い近似です(おそらく十分に近くないかもしれません)ここで、従属変数を正規化し、対数変換した赤の2つのqqプロットをそれぞれここに添付します通常の理論分位数)。 私の変数の分布を考えると、不均一性は従属変数の非正規性によって引き起こされる可能性があります(モデルのエラーに非正規性を引き起こしますか?) 従属変数を変換する必要がありますか?glmモデルを適用する必要がありますか?-私はglmで試しましたが、BPテストの出力に関しては何も変更されていません。 グループ間の変動を制御し、不均一分散(ランダムインターセプト混合モデル)を取り除くより効率的な方法はありますか? 前もって感謝します。 編集1: 私は食物消費スコアの技術マニュアルをチェックしましたが、通常、指標は「正規に近い」分布に従うと報告されています。実際、Shapiro-Wilk Testは、変数が正規分布であるという帰無仮説を拒否します(最初の5000 obsでテストを実行できました)。残差に対するフィッティングのプロットからわかるのは、フィッティングの値が低い場合、エラーの変動性が減少することです。以下にプロットを添付します。プロットは、線形混合モデル、正確には398の異なるグループを考慮したランダムインターセプトモデルから得られます(相互相関係数= 0.32、グループの平均解放は0.80以上)。私はグループ間の変動性を考慮に入れましたが、異分散性はまだあります。 また、さまざまな分位回帰を実行しました。私は特に0.25分位点の回帰に関心がありましたが、誤差の等分散に関しては改善がありませんでした。 私は今、ランダムな切片の分位点回帰を当てはめることによって、分位点とグループ(地理的領域)の間の多様性を同時に考慮することを考えています。良いアイデアかもしれませんか? さらに、ポアソン分布は、変数の値が低い場合でも少し(通常より少し小さい)変動しても、私のデータの傾向に従っているように見えます。ただし、問題は、ポアソンファミリのglmをフィッティングするには正の整数が必要であり、私の変数は正の値ですが、整数のみではありません。したがって、glm(またはglmm)オプションを破棄しました。 編集2: あなたの提案のほとんどは、堅牢な推定量の方向に行きます。しかし、それは解決策の1つにすぎないと思います。データの不均一性の理由を理解すると、モデル化する関係の理解が向上します。エラー分布の底部で何かが起こっていることは明らかです-OLS仕様からのこの残差のqqplotを見てください。 この問題にさらに対処する方法について何か考えが思い浮かびますか?分位点回帰でさらに調査する必要がありますか? 問題が解決しました ? あなたの提案に従って、私は最終的にランダムなインターセプトモデルトリングを実行して、技術的な問題を私の研究分野の理論に関連付けました。モデルのランダムな部分に含まれていると、誤差項が等分散性になる変数が見つかりました。ここに私は3つのプロットを投稿します: 1つ目は、34グループ(州)のランダムインターセプトモデルから計算されます。 2つ目は、34のグループ(地域)を持つランダム係数モデルからのものです。 最後に、3番目は、398個のグループ(地区)を持つランダム係数モデルの推定結果です。 前回の仕様では、不等分散性を制御していると言っていいでしょうか?

2
外れ値の検出におけるクックの距離
私の理解によると、クックの距離は、モデルをフィッティングするときにポイントを除外することにより、各観測の影響を測定します。だから私はそれが異常値検出のための合理的なアプローチであると思いますか? 私の質問、データがグループに分類されていると仮定すると、異常値ポイントの代わりに「異常値」グループの検出にクックの距離を使用することは可能ですか?クックの距離は、グループの影響を測定するための良い選択です。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.