タグ付けされた質問 「mixed-model」

混合(別名マルチレベルまたは階層)モデルは、固定効果と変量効果の両方を含む線形モデルです。これらは、長期的またはネストされたデータをモデル化するために使用されます。

3
R lme4またはnlmeパッケージを使用した変量効果の推定とユーザー定義の相関/共分散構造の適用
以下の種類のデータがあります。私はそれぞれ10回繰り返された10人の個人を評価しました。私は10x10の関係マトリックス(個人のすべての組み合わせ間の関係)を持っています。 set.seed(1234) mydata <- data.frame (gen = factor(rep(1:10, each = 10)), repl = factor(rep(1:10, 10)), yld = rnorm(10, 5, 0.5)) この世代はさまざまな種類の植物であるため、それぞれを繰り返し栽培して、収量を測定できます。共分散行列は、個別の実験でibd確率によって計算された遺伝的類似性による関連性の尺度です。 library(lme4) covmat <- round(nearPD(matrix(runif(100, 0, 0.2), nrow = 10))$mat, 2) diag(covmat) <- diag(covmat)/10+1 rownames(covmat) <- colnames(covmat) <- levels(mydata$gen) > covmat 10 x 10 Matrix of class "dgeMatrix" 1 2 …
9 r  mixed-model 

1
線形混合効果モデリングにおける可変次数と考慮される変動性
15人の被験者の研究で、応答変数(res)が2つの説明変数でモデル化され、1つ(レベル)は5つのレベルのカテゴリカルであり、もう1つ(応答時間:RT)は連続的であるとします。Rのlme4パッケージのlmerを使用すると、次のようになります。 fm1 <- lmer(res ~ level * RT + (level-1 | subject), data=mydata) anova(fm1) Df Sum Sq Mean Sq F value level 4 3974.9 993.7 9.2181 RT 1 1953.5 1953.5 18.1209 level:RT 4 5191.4 1297.9 12.0393 2つの変数の順序を変更すると、主な効果の結果が少し異なります。 fm2 <- lmer(res ~ RT * level + (level-1 | subject), data=mydata) anova(fm2) …

1
観測値が1つしかない被験者との混合モデルをフィットできますか?
非常に大規模なデータセットを使用しており、個々の場所について長期にわたって繰り返し測定を行っています。一部の場所には10のデータポイントがあり、一部の場所には1つのデータポイントしかない場合があります。混合モデルをフィットさせ、ランダム効果として位置を使用します。私の質問は、データポイントが1つしかない場所を使用できますか(1つのデータだけで回帰直線を作成できないため)、またはそれらの場所を除外する必要がありますか?

2
メタ分析モデルをブートストラップするときの二峰分布の原因
@Wolfgangが作成したmetafor Rパッケージフレームワークを使用して、同僚がメタ分析混合効果モデルをブートストラップするのを支援します。 興味深いことに、心配なことに、モデルの係数の1つについて、ブートストラップ時に二峰性分布が得られます(下図の右下のパネルを参照)。 主な原因の1つは、ブートストラップ時に、モデルの半分がローカルソリューションに収束し、残りの半分が別のソリューションに収束することであると考えられます。このmetaforドキュメント-rma ()関数での収束問題)で提案されているように、収束アルゴリズムを調整しようとしました。また、rma.mv関数のヘルプドキュメントで提案されているようなbobyqa、他の収束アルゴリズムを試しましたが、同じバイモーダル応答が得られました。newuoa 「ブートストラップ相関のマルチモーダル分布を解釈する方法」で提案されているように、問題のあるグループからいくつかの潜在的な外れ値を排除しようとしましたが、役に立ちませんでした。 データの因子レベルを変更してGitHubにアップロードする以外に、これを再現する方法を見つけることができませんでした(以下のリンクは、ケースのテストに必要なすべてを環境にロードする必要があります)。Linuxクラスターでブートストラップを配列ジョブとして実行します(念のため、シェルスクリプトはjob.shです。これは、各CPUで、以下で説明するモデルを実行するRスクリプトbootstrap.rを実行します)。1回の実行には2〜3分かかります。二峰性応答を検出するには、100回のブートストラップでも十分であることに注意してください。以下は1000回の反復の例です。私はRや他の方法に精通していますが、メタ分析にはそれほど詳しくありません。 二峰性の分布に問題がないかどうか(収束の問題が原因である可能性があります)を理解し、そうでない場合は、どうすればよいですか?(私がすでに試したこと以外に) 以下-ブートストラップ(赤い線)と単一の完全なモデル実行(青い線)からの係数を比較します。ヒストグラムは、各係数のブートストラップ分布を示しています。ブートストラップ用のデータのサンプリングは、2つの固定効果によって形成された各グループ/組み合わせからの置換で選択することで行われました。生のサンプルサイズは次のとおりです。 table(dt$f1, dt$f2) #> #> f2_1 f2_2 f2_3 #> f1_1 177 174 41 #> f1_2 359 363 107 library(data.table) library(ggplot2) library(metafor) #> Loading required package: Matrix #> Loading 'metafor' package (version 2.0-0). For an overview #> and introduction to the package please …


1
L2正則化とランダム効果の縮小
変量効果回帰の基本的な特性は、ランダムな切片の推定値が、各推定値の相対分散の関数としての応答の全体的な平均に向かって「縮小」されることです。 ρJ=τ2/(τ2+σ2/NJ)。U^j= ρjy¯j+ (1 - ρj)y¯U^j=ρjy¯j+(1−ρj)y¯\hat{U}_j = \rho_j \bar{y}_j + (1-\rho_j)\bar{y}ρj= τ2/( τ2+ σ2/ nj)。ρj=τ2/(τ2+σ2/nj).\rho_j = \tau^2 / (\tau^2 + \sigma^2/n_j). これは、ロジスティック回帰などの一般化線形混合モデル(GLMM)にも当てはまります。 その収縮は、ID変数のワンホットエンコーディングによる固定効果ロジスティック回帰よりも、またはL2正則化による収縮よりどのように優れていますか? 固定効果モデルでは、L2正規化のペナルティ変更することで収縮量を制御できますが、変量効果モデルでは、収縮量を制御できません。「目標が推論である場合は変量効果モデルを使用し、目標が予測である場合は固定効果モデルを使用する」というのは正しいでしょうか?λλ\lambda

1
不慣れで懐疑的な人のための線形混合効果モデルを報告する方法は?
私はこの問題に数回遭遇しました。レビューアはLMMの使用の正当化、LMMの代わりに、またはLMMに加えて従来のテスト、および通常の線形モデルで報告するものと同様のパラメーター推定の完全な表を要求します。 。 現在、私の特定の問題は、「さまざまなモデルの主要なパラメーター推定値を含むテーブル」を要求するレビュー担当者です。私は彼らが線形モデル(t検定とp値を含む)について報告する従来のテーブルのようなものを望んでいると思いますが、この場合、分析にはネストされたモデル比較が含まれ、それぞれに含まれる各パラメーターのt検定はありませんモデルではなく、モデル比較のための単一のテストです。だから私は何をすべきかわかりません-私はレビュー担当者を満足させたいのですが、結果の評価にほとんど役立たない情報の巨大な表を必ずしも含めたいとは思いません。現在、私は単純にベータ、SE、カイ二乗、p値を報告しています。また、各モデルにどの変数が含まれていたかを明確にします。続行する方法について何か提案はありますか? これが私が応答することを提案しているものです: 私たちは、レビュアーが、パラメーター推定値とそれに付随する統計、および特定のモデルに含まれる各変数のp値を使用して、従来の重回帰分析で報告される内容に似たものを求めていると考えています。ただし、線形混合モデル分析では、1つの追加パラメーターを使用して縮小モデルと完全モデルを比較するネストされたモデルを使用するため、テストされるパラメーターは、完全モデル(CITATION)に追加されたパラメーターのみであるため、テーブルを含めると解釈がサポートされませんより伝統的な分析と同じように結果を分析します。したがって、各分析について、推奨されるように、結果セクションの本文に、主要な統計とともに、各モデル比較でテストされたパラメーターのベータを報告します(CITATIONS)。 また、私の特定のケースでLMMを使用することの正当化を求められたとき、これは私が対応することを提案しているものです。 線形混合モデルを使用したのは、この分析により、モデル内の試行タイプ(切り替えと切り替えなしの試行)による変動性を説明できると同時に、試行が被験者内にネストされているという事実と、同じ人物からの複数の応答を説明できるためです。他の人からの応答よりも似ています。試行タイプと被験者レベルの反応時間の変動の両方を考慮に入れると、モデルのエラーが減少し、タスクパフォ​​ーマンスの影響を検出する能力が向上すると予想されました。 これを改善する方法について何か提案があれば、私はそれを感謝します。繰り返しますが、このオーディエンスは統計的に洗練されていないため、テーブルや補足データを追加しても、混乱や懐疑論が増える可能性があります。 また、LMMを使用する動機は、私が論文で見たものとは異なることに注意してください(たとえば、複数の変量効果を同時にモデル化する-私の場合、変量効果は1つだけです-参加者であり、試行タイプは固定効果です)。いくつかの一般的な論文を引用することがその助けになるかどうかはわかりません。LMMを使用する正当な理由が適切ではないため、このデータを分析する他の方法を見落とした可能性があります。

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

3
ガウス尤度+どの事前=ガウス限界か?
サンプルについてガウス尤度を与え様とのパラメータ空間とされて、平均ベクトルと共分散行列の任意のパラメーター化。yyyp(y|θ)=N(y;μ(θ),Σ(θ))p(y|θ)=N(y;μ(θ),Σ(θ))p(y|\theta) = \mathcal{N}(y;\mu(\theta),\Sigma(\theta))ΘΘ\Thetaμ(θ)μ(θ)\mu(\theta)Σ(θ)Σ(θ)\Sigma(\theta) 限界尤度なるように、事前密度と平均ベクトルおよび共分散行列パラメーター化を指定することは可能ですか?はガウス尤度ですか?p(θ)p(θ)p(\theta)μ(θ)μ(θ)\mu(\theta)Σ(θ)Σ(θ)\Sigma(\theta)p(y)=∫θ∈ΘN(y;μ(θ),Σ(θ))p(θ)dθp(y)=∫θ∈ΘN(y;μ(θ),Σ(θ))p(θ)dθp(y)=\int_{\theta\in\Theta}N(y;\mu(\theta),\Sigma(\theta))p(\theta)d\theta 共分散がわかっている自明な解、つまりを除外すると思います。ここで、は任意の固定共分散行列ですが、これは不可能です。Σ(θ)=ΣΣ(θ)=Σ\Sigma(\theta)=\SigmaΣΣ\Sigma 特別な場合および、つまりは1次元であり、、ここでは、表示できる均一密度を示します: μ(σ2)=μμ(σ2)=μ\mu(\sigma^2)=\muΣ(σ2)=σ2Σ(σ2)=σ2\Sigma(\sigma^2)=\sigma^2yyyp(σ2)=U(σ2;a,b)p(σ2)=U(σ2;a,b)p(\sigma^2)=\mathcal{U}(\sigma^2;a,b)U(σ2;a,b)U(σ2;a,b)\mathcal{U}(\sigma^2;a,b)p(y)=∫∞0N(y;μ,σ2)U(σ2;a,b)dσ2=1b−a∫baN(y;μ,σ2)not a Gaussian densityp(y)=∫0∞N(y;μ,σ2)U(σ2;a,b)dσ2=1b−a∫abN(y;μ,σ2)⏟not a Gaussian density\begin{align} p(y)&=\int_0^\infty \mathcal{N}(y;\mu,\sigma^2)\mathcal{U}(\sigma^2;a,b)d\sigma^2 \\ &= \frac{1}{b-a} \underbrace{\int_a^b \mathcal{N}(y;\mu,\sigma^2)}_\text{not a Gaussian density} \end{align} 受け入れられた回答には、公式または非公式の証明またはそれへのポインタが含まれています。

1
混合効果モデルのグループ効果は、正規分布から選ばれたと想定されていますか?
たとえば、生徒の学習時間数が生徒の試験の成績にどのように影響するかに興味があるとします。私たちはいくつかの異なる学校の生徒をサンプリングします。我々は、次の混合効果モデルを実行します。 Exam.grades私= a + β1× 時間。私+ 学校j+ e私Exam.grades私=a+β1×hours.studied私+学校j+e私 \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + \text{school}_j + e_i このモデルでは、各学校はより多くの学校の人口から選ばれたと想定され、学校の効果は正規分布していると言ってもいいでしょうか。したがって、学校の集団効果について、すべての「通常の」正規分布型の手順を実行できますか?学校の68%のようなものは、学校の平均集団効果の1標準偏差以内になると言えるでしょうか。また、学校の全体的な平均グループ効果の95%信頼区間を計算できますか? また、学校の固定効果による線形回帰では、参照グループとダミー変数を使用しているため、これらの正規分布統計を計算できないと言っていいでしょうか?

2
R lmerTestと複数のランダム効果のテスト
RのlmerTestパッケージ、具体的には「rand」関数がランダム効果のテストをどのように処理するかについて知りたいです。組み込みの「ニンジン」データセットを使用するCRAN のlmerTest pdfの例を考えてみます。 #import lme4 package and lmerTest package library(lmerTest) #lmer model with correlation between intercept and slopes #in the random part m <- lmer(Preference ~ sens2+Homesize+(1+sens2|Consumer), data=carrots) # table with p-values for the random effects rand(m) モデルは、2つのランダムな分散(切片と「sens2」)を指定します。どちらも「コンシューマー」にネストされており、切片と「sens2」の間の共分散です。lmer実行からのランダムコンポーネントの出力(pdfには含まれていません)は次のとおりです。 Random effects: Groups Name Variance Std.Dev. Corr Consumer (Intercept) 0.195168 0.44178 sens2 …

2
マルチレベルモデルにおける切片勾配相関の効用について
彼らの著書「Multilevel Analysis:An Introduction to Basic and Advanced Multilevel Modeling」(1999)で、Snijders&Bosker(8章、セクション8.2、119ページ)は、切片と勾配の相関を、切片と勾配の共分散を除算して計算すると述べています。切片の分散と勾配の分散の積の平方根によって、-1と+1の間に制限されず、無限になることさえあります。 これを考えると、私はそれを信頼すべきだとは思いませんでした。しかし、私は説明するための例を持っています。人種(二分法)、固定効果としての年齢と年齢*人種、ランダム効果としてのコホート、およびランダム勾配としての人種二分法変数を含む私の分析の1つで、一連の散布図は、勾配が値全体であまり変化しないことを示しています私のクラスター(つまり、コホート)変数の変化、およびコホート全体で勾配がより少なくまたはより急になるのがわかりません。尤度比検定では、サンプルの合計サイズ(N = 22,156)にも関わらず、ランダムインターセプトモデルとランダムスロープモデル間の適合性が有意でないことも示されています。それでも、切片と傾きの相関は-0.80近くでした(これは、時間の経過に伴う、つまりコホート全体でのY変数のグループ差の強い収束を示唆しています)。 Snijders&Bosker(1999)がすでに述べていることに加えて、切片と勾配の相関を信頼しない理由を示す良い例だと思います。 マルチレベル研究で切片勾配相関を本当に信頼して報告する必要がありますか?具体的には、そのような相関関係の有用性は何ですか? 編集1:それは私の質問に答えるとは思わないが、gungは私に詳細情報を提供するように頼んだ。役立つ場合は、以下を参照してください。 データは一般社会調査からのものです。構文には、Stata 12を使用したので、次のようになります。 xtmixed wordsum bw1 aged1 aged2 aged3 aged4 aged6 aged7 aged8 aged9 bw1aged1 bw1aged2 bw1aged3 bw1aged4 bw1aged6 bw1aged7 bw1aged8 bw1aged9 || cohort21: bw1, reml cov(un) var wordsum 語彙テストのスコア(0-10)、 bw1 民族変数(黒= 0、白= 1)、 aged1-aged9 年齢のダミー変数であり、 …

1
との意味は何ですか?
「クロスヘア」記号を使用している本の表記法を完全に理解するのに苦労しています。最初はようには行列で、2番目は。とはどちらも行列です。⨁i=1nZj⨁i=1nZj\bigoplus\limits_{i=1}^n{} Z_j ZjZjZ_jIn⊗ΦIn⊗ΦI_n \otimes \PhiInInI_nΦΦ\Phi 本は多変量統計についてであり、セクションはランダム係数モデルについてです。参照する表記/用語の付録はありません。ユーザーがコンテキストを確認できるように、ページのデジタル写真を投稿しました(これはセクションの冒頭にあります)。 これはここのトピックですか、それともmath.seに投稿する必要がありますか? 更新:最初にこれをmeta.seに投稿しましたが、ここに移行されました。本の関連ページから写真を添付し​​ています。

1
混合効果の可能性と推定ロジスティック回帰
最初に、固定部分とランダム部分を持つロジスティック回帰のデータをシミュレートします。 set.seed(1) n <- 100 x <- runif(n) z <- sample(c(0,1), n, replace=TRUE) b <- rnorm(2) beta <- c(0.4, 0.8) X <- model.matrix(~x) Z <- cbind(z, 1-z) eta <- X%*%beta + Z%*%b pr <- 1/(1+exp(-eta)) y <- rbinom(n, 1, pr) ランダムな部分がないロジスティック回帰を近似したいだけの場合は、次のglm関数を使用できます。 glm(y~x, family="binomial") glm(y~x, family="binomial")$coefficients # (Intercept) x # -0.2992785 …

1
グループ平均について推論するとき、信頼区間は被験者内分散に敏感ですが、信頼区間はそうではありませんか?
これはこの質問 から派生したものです。Rを使用して各個人の複数の測定値を持つ2つのグループを比較する方法は? そこでの回答で(私が正しく理解した場合)、被験者内分散はグループ平均についてなされた推論に影響を与えず、単純に平均の平均をとってグループ平均を計算し、次にグループ内分散を計算してそれを使用することは問題ありません有意性検定を実行します。サブジェクト内の分散が大きいほど、グループについて確信が持てない、またはそれを望んでも意味がない理由を理解できない方法を使用したいと思います。 これは、元のデータと、同じ被験者平均を使用したシミュレーションデータのプロットですが、これらの平均と被験者内分散(sd = .1)を使用して、正規分布から各被験者の個々の測定値をサンプリングしました。見て取れるように、グループレベルの信頼区間(一番下の行)はこれに影響されません(少なくとも私が計算した方法)。 また、3つの方法でグループ平均を推定するためにrjagsを使用しました。1)元の生データを使用する2)被験者の手段のみを使用する3)被験者内sdが小さいシミュレーションデータを使用する 結果は以下の通りです。この方法を使用すると、95%の信頼できる間隔は、ケース#2と#3で狭いことがわかります。これは、グループ平均について推論するときに何をしたいのかという私の直感に一致しますが、これがモデルのアーチファクトなのか、信頼できる間隔のプロパティなのかはわかりません。 注意。rjagsを使用するには、まずここからJAGSをインストールする必要があります:http ://sourceforge.net/projects/mcmc-jags/files/ さまざまなコードを以下に示します。 元のデータ: structure(c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.