タグ付けされた質問 「random-effects-model」

共変量の特定のレベルに関連付けられているパラメーターは、レベルの「影響」と呼ばれることがあります。観察されるレベルがすべての可能なレベルのセットからのランダムなサンプルを表す場合、これらの効果を「ランダム」と呼びます。

2
ランダムな勾配と切片を使用したポアソンGLM混合モデルの近似
現在、一連のポアソン時系列モデルに取り組んでいます。カウントの取得方法の変更(ある診断テストから別のテストへの切り替え)の影響を推定しなが​​ら、他の傾向を経時的に制御しています(たとえば、病気の発生率)。さまざまなサイトのデータがあります。 私もGAMをいじくり回してきましたが、一連のかなり基本的なGLMに時間の傾向を合わせて、結果をプールしました。このためのコードは、SASでは次のようになります。 PROC GENMOD data=work.data descending; model counts = dependent_variable time time*time / link=log dist = poisson; run; またはこれはRで: glm(counts ~ dependent_variable + time + time*time, family="poisson") 次に、それらの見積もりを取得し、さまざまなサイトにプールします。また、プールするのではなく、ランダムな傾斜と各サイトのインターセプトを含むポアソン混合モデルを使用することをお勧めします。したがって、基本的に、dependent_variableの固定効果があり、次に切片と時間(または理想的には時間と時間^ 2のランダム効果)があります。 私の問題は、これらのモデルの1つをどのように合わせるかわからないことです。混合モデルでは、みんなのドキュメントが突然非常に不透明になるようです。誰もが私が適合しようとしているものを適合させる方法、および何を注意すべきかについて簡単な説明(またはコード)を持っていますか?

1
難しいデータセットのモデルは何ですか?(ネスティングの多い数百の時系列)
分析するのに非常に複雑なデータセットがあり、それに対する適切な解決策を見つけることができません。 ここに事があります: 1.生データは本質的に昆虫の歌の録音です。各曲はいくつかのバーストで構成され、各バーストはサブユニットで構成されています。すべての個人が5分間記録されました。バーストの数と記録内でのそれらの位置、およびバーストごとのサブユニットの数は、個人間で非常に異なる場合があります。 2.各サブユニットのキャリア周波数(基本周波数)がわかっているので、それを分析します。 私の問題: 1.バースト内の周波数は明らかに独立していません(かなり安定していますが、サブユニットn-1の周波数はサブユニットnに影響します)。 2.バーストは、録音内でも独立していません。 3.時間とともに周波数が下がるので、それらの独立性はさらに低くなります(個人が歌うのに飽きて、曲の周波数がどんどん低くなります)。落ち込みは直線的なようです。 4.ネスト= 2つの場所AとBに3つの複製された母集団があります。したがって、A1、A2、A3とB1、B2、B3があります。 私がしたいこと: 1. 2つの場所の頻度の違いを特徴付ける(統計的にテストする) 2. 2つの場所の間で落ちる周波数を特徴付けます(それらの1つで速く落ちるかどうかを確認してください)。 どうやってするの: それが私が助けを必要とする理由です:私にはわかりません。私のケースは、通常一緒に見られない問題を組み合わせているようです。私は混合モデル、GAM、ARIMA、ランダム効果と固定効果について読みましたが、それを行うための最良の方法を本当に確信できません。しかし、それをグラフ化すると(頻度〜サブユニット番号n)、2つの場所の違いは非常に明確です。温度(周波数を高くする)など、他の変数も考慮する必要があります。 私は考えました: レプリケート内の個人を入れ子にし、複製を場所(個人/複製/場所)内に入れ子にします。 ランダムな「バースト」効果を使用して、各バースト内の変動を考慮します。 固定された「記録中のバースト位置」効果を使用して、周波数の低下を測定します(実際には線形であることを期待しています)。 正しいでしょうか? このようなシナリオに使用できる特別なタイプのモデルはありますか?

1
可変数の評価を使用してRの評価者間の信頼性を計算していますか?
ウィキペディアでは、評価者間の信頼性を確認する1つの方法は、変量効果モデルを使用してクラス内相関を計算することです。クラス内相関の例では、 σ2ασ2α+σ2ϵσα2σα2+σϵ2\frac{\sigma_\alpha^2}{\sigma_\alpha^2+\sigma_\epsilon^2} モデルから Yij=μ+αi+ϵijYij=μ+αi+ϵijY_{ij} = \mu + \alpha_i + \epsilon_{ij} 「Yここでijは jは番目 Iで観察番目のグループ、μはα、未観測全体平均でiは iがグループ内のすべての値で共有未観測ランダム効果であり、ε ijは未観測ノイズ項です」。 特に私のデータでは、評価者がすべてのものを評価しておらず(ほとんどが20+を評価しています)、さまざまな回数(通常は3〜4)の評価が行われているため、これは特に魅力的なモデルです。 質問0:その例の「グループi」(「グループi」)は、評価されているもののグループですか? 質問#1:評価者間の信頼性を求めている場合、評価者と評価対象の2つの項を持つ変量効果モデルは必要ありませんか?結局のところ、両方とも可能なバリエーションがあります。 質問#2:このモデルをRで最もよく表現するにはどうすればよいですか? ているかのように見えます。この問題は、見栄えの良い提案があります。 lmer(measurement ~ 1 + (1 | subject) + (1 | site), mydata) 私は見てカップルの 質問、およびLMEのための「ランダム」パラメータの構文は、私には不透明です。lmeのヘルプページを読みましたが、「ランダム」の説明は例がなければ理解できません。 この質問は質問の長い リストにいくぶん似ていますが、これが最も近い質問です。ただし、ほとんどの場合、Rについては詳しく説明されていません。

3
変量効果はカテゴリ変数にのみ適用できますか?
この質問は愚かに聞こえるかもしれませんが... ランダムな効果はカテゴリ変数(個人ID、人口IDなど)にのみ適用できることは正しいです。たとえば、はカテゴリ変数です。xixix_i yiyiy_i〜βxiβxi\beta_{x_i} βxiβxi\beta_{x_i}〜Norm(μ,δ2)Norm(μ,δ2)Norm(\mu, \delta^2) しかし、原則から、ランダム効果は連続変数(高さ、質量など)に適用できませんと言います。ziziz_i yiyiy_i〜α+β⋅ziα+β⋅zi\alpha + \beta \cdot z_{i} それでは、制約できない係数が1つしかないからです。論理的に聞こえるかもしれませんが、なぜそれが統計文献に記載されていないのでしょうか。ありがとう!ββ\beta EDIT:しかし、どのような場合、私制約よう〜?それはランダム効果ですか?しかし、これはに課した制約とは異なります -ここでは変数を制約しますが、前の例では係数を制約しました!それは私にとって大きな混乱のように見えます...とにかく、は既知の値であるため、この制約を置くことはあまり意味がありません。ziziz_iziziz_iNorm(μ,δ2)Norm(μ,δ2)Norm(\mu, \delta^2)βxiβxi\beta_{x_i}ziziz_i

1
二項モデル(lme4)の変量効果の推定
ランダムロジットでベルヌーイ試験をシミュレートしていますグループとの間で、私と対応するモデルフィットパッケージ:ロジットθ 〜N(ロジットθ0、12)logitθ∼N(logitθ0,12)\text{logit}\, \theta \sim {\cal N}(\text{logit}\, \theta_0, 1^2)lme4 library(lme4) library(data.table) I <- 30 # number of groups J <- 10 # number of Bernoulli trials within each group logit <- function(p) log(p)-log(1-p) expit <- function(x) exp(x)/(1+exp(x)) theta0 <- 0.7 ddd <- data.table(subject=factor(1:I),logittheta=rnorm(I, logit(theta0)))[, list(result=rbinom(J, 1, expit(logittheta))), by=subject] fit <- glmer(result~(1|subject), …

1
マルチレベル/階層設計で非ランダム因子をランダムとしてモデル化できますか?
厳密にランダムな変数(そのようにモデル化する必要がある)と、階層/マルチレベルモデルの場合にランダムとしてモデル化できると主張する非ランダム変数の違いは、私には不明瞭です。 BatesとBolkerは、ランダムに選択されたサンプルの製品の品質など、真のランダム性の場合のランダム効果を例示します。彼らのlme4仕事はすごいですが、線がランダムとランダムではないところがどこにあるのかはまだはっきりしていません。社会科学での議論は、これをさらに不明瞭にします。マルチレベル/階層モデルと変量効果モデルはで計算上等しいlme4ので、どこに線を引くのでしょうか。 たとえば、私は複数の個人で反復測定のデータセット(ランダムです!)を持っていますが、私は、lme4分散の大部分が社会経済変数(居住地域、人種など)内にあると考えており、その結果を示しています。これらの変数はランダムではありませんが、マルチレベルモデルはこれらをそのまま使用できると主張しています。他の例は、学生の学年の研究から来ています。通常、学生を教師内に、さらには学校内に入れ子にしています。これらの変数はすべて定数です。 マルチレベル(階層)モデルの領域で妥当である場合、非ランダム因子をランダムとしてモデル化できますか?

1
統計的に有意ではない場合、変量効果をモデルから除外する必要がありますか?
統計的に有意ではない場合でも、変量効果をモデルに含める必要がありますか?私は繰り返し測定実験計画を立てており、各個人はランダムな順序で3つの異なる治療を経験しています。個人と秩序の影響を制御したいのですが、どちらのモデルも統計的に有意ではないようです。それで除外しても大丈夫ですか、それとも含める必要がありますか?

1
パネルデータ:プールされたOLS対RE対FE効果
FEと比較したPooled-OLSおよびRE Estimatorの有用性について、いくつかの議論がありました。 つまり、私が知る限り、プールされたOLS推定は、単にPanelデータに対して実行されるOLS手法です。したがって、個々に固有の影響はすべて完全に無視されます。そのため、誤差項の直交性などの基本的な仮定の多くに違反しています。 REは、ランダムであると想定されるモデルに個別の仕様インターセプトを実装することによってこの問題を解決します。これは、モデルの完全な外来性を意味します。これはHausmann-Testでテストできます。 ほとんどすべてのモデルにはいくつかの内因性の問題があるため、FE-Estimationは最良の選択であり、最良の一貫した推定を提供しますが、個々の特定のパラメーターは失われます。 私が自問している質問は、プールされたOLSまたはランダム効果を使用することが実際に意味があるのはいつかということです。プールされたOLSは非常に多くの仮定に違反しているため、まったく意味がありません。また、RE-Estimatorの強力な外因性は基本的に与えられないので、いつそれが実際に役立つのでしょうか? これに加えて、すべてのモデルで、自己相関は考慮できませんか?

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
性差別のためのハウスマンテストの使い方は?
スウェーデンの大企業の男女の男女の賃金格差を推定して、性差別の有無をテストしています。Hausmanテストは、個々の固定効果がランダムであるため、プールされたOLSまたはランダム効果に依存することができないというnullを拒否します。問題は、時間の経過とともに変化しないため、女性ダミーを固定効果回帰に維持できないことです。 差別をテストするために代わりにハウスマンテストを使用するよう提案されましたが、これをどのように使用して男性と女性の労働者の収入の差を見つける必要があるのか​​実際にはわかりません。多分ここの誰かがこのアドバイスをもう少しよく理解してくれることを望んでいました。もしそうなら、私にこれについていくつかの光を当ててもらえますか?

1
ランダム効果の合計がGLMM(lme4を使用)でどれだけゼロに近いか
lme4R のパッケージを使用して、ロジスティック混合効果モデリングを行っています。 私の理解は、各変量効果の合計はゼロであるべきだということでした。 私が使用して混合モデル線形おもちゃを作るときはlmer、ランダム効果は、<通常、というのが私の信念を確認する のおもちゃ二項モデルではなく、(と私の本当の二項データのモデルで)をランダム効果の和の一部に〜 0.9。10−1010−1010^{-10}colSums(ranef(model)$groups) ~ 0 心配する必要がありますか?これをどのように解釈しますか? これは線形おもちゃの例です toylin<-function(n=30,gn=10,doplot=FALSE){ require(lme4) x=runif(n,0,1000) y1=matrix(0,gn,n) y2=y1 for (gx in 1:gn) { y1[gx,]=2*x*(1+(gx-5.5)/10) + gx-5.5 + rnorm(n,sd=10) y2[gx,]=3*x*(1+(gx-5.5)/10) * runif(1,1,10) + rnorm(n,sd=20) } c1=y1*0; c2=y2*0+1; y=c(t(y1[c(1:gn),]),t(y2[c(1:gn),])) g=rep(1:gn,each=n,times=2) x=rep(x,times=gn*2) c=c(c1,c2) df=data.frame(list(x=x,y=y,c=factor(c),g=factor(g))) (m=lmer(y~x*c + (x*c|g),data=df)) if (doplot==TRUE) {require(lattice) df$fit=fitted(m) plot1=xyplot(fit ~ x|g,data=df,group=c,pch=19,cex=.1) plot2=xyplot(y ~ …

2
Rの2因子反復測定ANOVA後の事後検定?
Rで2因子(両方とも被験者内)のANOVAを繰り返し測定した後、事後テスト(Tukey HSD)を実行する方法に関する解決策を見つけるのに問題があります。ANOVAには、aov -functionを使用しました。 summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) 他の質問への回答を読んだ後、他の機能(lmeなど)を使用してANOVAを再実行する必要があることを知りました。これが私が思いついたものです。 Lme.mod <- lme(dv ~ x1*x2, random=list(subject=pdBlocked(list(~1, pdIdent(~x1-1), pdIdent(~x2-1)))), data=df1) anova(Lme.mod) 主な効果はどちらも有意でしたが、相互作用の効果はありませんでした。次に、これらの関数を事後比較に使用しました。 summary(glht(Lme.mod, linfct=mcp(x1="Tukey"))) summary(glht(Lme.mod, linfct=mcp(x2="Tukey"))) しかし、いくつかの問題がありました: まず、Rヘルプファイルには、「双方向ANOVAまたはANCOVAモデル(...)multcompバージョン1.0-0以降で対象のパラメーターを定義する場合、mcp関数は注意して使用する必要があります。主な効果の比較が生成されます。のみ、共変量と交互作用を無視します(古いバージョンは交互作用項で自動的に平均化されました)警告が表示されます。そして確かに、私は次の警告メッセージを受け取りました: Warning message: In mcp2matrix(model, linfct = linfct) : covariate interactions found -- default contrast might be inappropriate もう1つの不可解な点は、両方の主要な効果は有意でしたが、要因の1つ(x1)の事後比較に有意差はなかったということです。これに出会ったことはありません。スクリプト/分析は正しい/適切ですか、それとも欠けているものはありますか?どんな助けでも大歓迎です!

1
ネストされた変量効果項の数学的表現
依存レベルの変数と仮定し単位レベル型のユニット内にネストされている(レベル1)で測定された(レベル)、及び型のユニットAは、型のレベル内にネストされているB(レベル3)。yyyあAA222あAABBB333 次の式を当てはめたとします。 y ~ "FIXED EFFECTS [my syntax]" + (1 + x | B/A) ここで、バツxxはレベル1の予測子111です。 私の理解では、そのような数式の数学的表現は次のとおりです。それが正しいか? 以下では、yb 、a 、iyb,a,iy_{b,a,i}の出力である私ii部で番目のデータポイントaaaのあAA部にネストbbbのBBB。このデータポイントには、対応する予測子バツb 、a 、ixb,a,ix_{b,a,i}ます。 yb 、a 、i= 「固定効果」 +あなたb+あなたb 、1 、a+(βb+βb 、1 、a)xyb,a,i=“fixed effects''+ub+ub,1,a+(βb+βb,1,a)xy_{b,a,i} = \text{“fixed effects''} + u_b + u_{b,1,a} + (\beta_b + \beta_{b,1,a})x どこ あなたb〜 N(0、σB)ub∼N(0,σB)u_b \sim N(0, \sigma_B) あなたb 、1 …

2
変量効果を含む場合と含まない場合の二項回帰の推定値の大きな違い
2つのグループの学生の平均スコアを推定しようとしています。私は二項回帰モデルを使用しています。これtotal_ansは、回答した質問の合計であり、生徒によって異なる場合があります。 モデル1は直接推定 model <- glm(cbind(total_correct, total_ans-total_correct) ~ student_type,family= binomial, data = df) Call: glm(formula = cbind(total_correct, total_ans - total_correct) ~ student_type, family = binomial, data = df) Coefficients: (Intercept) student_group_2 -1.9684 0.2139 Degrees of Freedom: 1552 Total (i.e. Null); 1551 Residual Null Deviance: 1480 Residual Deviance: 1477 AIC: 1764 lsmeans(model,~ …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.