タグ付けされた質問 「glmm」

一般化線形混合(効果)モデルは、通常、非独立の非正規データ(たとえば、縦方向のバイナリデータ)のモデリングに使用されます。

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
固定効果とランダム効果
私はごく最近、一般化線形混合モデルについて学び始め、Rを使用して、グループメンバーシップを固定効果またはランダム効果のどちらとして扱うかによってどのような違いがあるかを調査しました。特に、ここで説明するデータセットの例を見ています。 http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm http://www.ats.ucla.edu/stat/r/dae/melogit.htm このチュートリアルで概説されているように、Doctor IDの効果はかなりのものであり、ランダムなインターセプトを備えた混合モデルがより良い結果をもたらすと期待していました。ただし、2つの方法のAIC値を比較すると、このモデルの方が悪いことがわかります。 > require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv") > hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married) > GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM) Call: glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, data = hdp) Deviance Residuals: Min 1Q Median 3Q Max -2.5265 -0.6278 …

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
母集団のr二乗変化の信頼区間を取得する方法
簡単な例のために、2つの線形回帰モデルがあると仮定します モデル1は、3つの予測因子を持っているx1a、x2bと、x2c モデル2には、モデル1からの3つの予測子と2つの追加の予測子がx2aあり、x2b 母集団の分散が説明人口回帰式がある モデル1及びρ 2 (2 )増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 (2 ) - ρ 2 (1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子(たとえば、5および30)に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J (2 ) - R 2 次元J (1 )推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。Δρ2Δρ2\Delta\rho^2Δr2adj=r2adj(2)−r2adj(1)Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)} ご質問 されたの合理的な推定量Δは、ρ …

3
一般化線形混合モデル:モデルの選択
この質問/トピックは同僚との話し合いで出てきたものであり、私はこれについていくつかの意見を探していました: 私はランダム効果ロジスティック回帰、より正確にはランダム切片ロジスティック回帰を使用していくつかのデータをモデル化しています。固定効果については、9つの変数があり、これらが考慮に入れられます。ある種のモデル選択を行って、重要な変数を見つけ、「最良の」モデル(主効果のみ)を与えたいと思います。 私の最初のアイデアは、AICを使用してさまざまなモデルを比較することでしたが、9つの変数を使用して、2 ^ 9 = 512のさまざまなモデル(キーワード:データ浚渫)を比較するのはそれほど面白くありませんでした。 これについて同僚と話し合ったところ、GLMMで段階的(またはフォワード)モデル選択を使用することについて読んだことを覚えていると彼は話しました。しかし、p値(たとえば、GLMMの尤度比検定に基づく)を使用する代わりに、AICを出入基準として使用する必要があります。 このアイデアは非常に興味深いものでしたが、これについてさらに説明する参考文献は見つかりませんでした。同僚は彼がどこでそれを読んだか覚えていませんでした。多くの書籍では、AICを使用してモデルを比較することを推奨していますが、これを段階的または順方向のモデル選択手順と一緒に使用することについての議論は見つかりませんでした。 だから私は基本的に2つの質問があります: エントリ/終了基準として段階的モデル選択手順でAICを使用することに問題はありますか?はいの場合、代替手段は何でしょうか? 上記の手順について説明している参考資料はありますか(最終報告の参考資料としても)? ベスト、 エミリア


3
複数の表面接触後に指で拾った細菌:非正常データ、反復測定、交差した参加者
はじめに 2つの条件(A =手袋を着用、B =手袋を着用しない)で、汚染された表面に大腸菌を繰り返し接触している参加者がいます。手袋をした場合と使用しない場合の指先の細菌の量に違いがあるかどうか、また接触の数に違いがあるかどうかを知りたいです。どちらの要素も参加者内にあります。 実験方法: 参加者(n = 35)は、同じ指で各正方形に1回タッチして、最大8つのコンタクトを作成します(図aを参照)。 次に、参加者の指を拭いて、接触するたびに指先の細菌を測定します。次に、新しい指を使用して、1〜8個の接点など、さまざまな数の表面に触れます(図bを参照)。 これが実際のデータです。実際のデータ データは正常ではないため、下のバクテリアの分布| NumberContactsを参照してください。x =細菌。各ファセットは異なる数の連絡先です。 モデル NumberContactsにGamma(link = "log")と多項式を使用してアメーバの提案に基づいてlme4 :: glmerから試してみます。 cfug<-glmer(CFU ~ Gloves + poly(NumberContacts,2) + (-1+NumberContacts|Participant), data=(K,CFU<4E5), family=Gamma(link="log") ) plot(cfug) NB。GIRA(link = "inverse")は、PIRLSのステップを半分にしても逸脱を減らすことができなかったとは言いません。 結果: cfugの近似vs残差 qqp(resid(cfug)) 質問: 私のglmerモデルは、各参加者のランダムな効果と、誰もが実験Aに続いて実験Bを行うという事実を組み込むように適切に定義されていますか? 添加: 参加者間には自己相関があるようです。これはおそらく、それらが同じ日にテストされなかったためであり、細菌のフラスコは時間とともに成長し、減少します。それは重要ですか? acf(CFU、lag = 35)は、ある参加者と次の参加者の間の有意な相関を示しています。

1
lme4 glmerおよびglmer.nbを使用してカウントデータGLMMを解釈するのに役立ちます-負の2項対ポアソン
GLMMの仕様と解釈につ​​いて質問があります。3つの質問は間違いなく統計的で、2つはRについてより具体的です。最終的に問題はGLMMの結果の解釈だと思うので、ここに投稿します。 私は現在GLMMに適合させようとしています。Longitudinal Tract Databaseの米国国勢調査データを使用しています。私の観察は国勢調査地区です。私の従属変数は空いている住宅の数で、空室と社会経済変数の関係に興味があります。ここの例は単純で、2つの固定効果を使用しています。非白人人口の割合(人種)と中央値世帯収入(クラス)、およびそれらの相互作用です。私は2つの入れ子にされたランダム効果を含めたいと思います:数十年から数十年以内のトラクト、つまり(10年/トラクト)。私はこれらのランダムを、空間的(すなわちトラクト間)および時間的(すなわち数十年間)の自己相関を制御するために検討しています。ただし、固定効果としては10年にも興味があるので、固定要素としても含めています。 私の独立変数は非負の整数カウント変数であるため、ポアソンおよび負の二項GLMMを近似しようとしています。オフセットとして、総住宅数のログを使用しています。これは、係数が空き家の総数ではなく、空室率への影響として解釈されることを意味します。 私は現在、ポアソンと負の二項GLMMの結果からglmerとglmer.nbを用いて推定していlme4。係数の解釈は、データと研究領域に関する私の知識に基づいて私には理にかなっています。 データとスクリプトが必要な場合は、私のGithubにあります。スクリプトには、モデルを構築する前に行った記述的調査の詳細が含まれています。 これが私の結果です: ポアソンモデル Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod'] Family: poisson ( log ) Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10) Data: scaled.mydata AIC BIC logLik deviance df.resid …

1
二項GLMM(glmer)を比率または分数である応答変数に近似する
誰かが私が比較的単純な質問だと思うことを手伝ってくれるといいのですが、私は答えを知っていると思いますが、確認なしでは、それは私が確信できないものになっています。 いくつかのカウントデータを応答変数として持っていますが、何かが比例して存在するときにその変数がどのように変化するかを測定したいと思います。 より詳細には、応答変数は多数のサイトでの昆虫種の存在の数です。たとえば、サイトは10回サンプリングされ、この種は4回発生する可能性があります。 これが、これらのサイトの植物の全体的なコミュニティーにおける植物種のグループの比例的な存在と相関関係があるかどうかを確認したいと思います。 これは私のデータが次のように見えることを意味します(これは単なる例です) Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence 1, 5, 10, 0.5 2, 3, 10, 0.3 3, 7, 9, 0.6 4, 0, 9, 0.1 データには、場所のランダムな影響も含まれます。 私は2つの方法を考えました、1つはlmer昆虫を比率に変換した線形モデル()でしょう lmer.model<-lmer(insectCount/NumberOfInsectSamples~ ProportionalPlantGroupPresence+(1|Location),data=Data) 2番目は二項GLMM(glmer)です。 glmer.model <- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~ ProportionalPlantGroupPresence+(1|Location), data=Data,family="binomial") 私は二項グラマーが正しい方法であると信じていますが、それらはかなり異なる結果を生み出します。私はまだ少し不安を感じずにネット上で決定的な答えを見つけることができないようで、間違いを犯さないようにしたいと思います。 これに関する別の方法への助けや洞察は大歓迎です。

1
統計的に有意ではない場合、変量効果をモデルから除外する必要がありますか?
統計的に有意ではない場合でも、変量効果をモデルに含める必要がありますか?私は繰り返し測定実験計画を立てており、各個人はランダムな順序で3つの異なる治療を経験しています。個人と秩序の影響を制御したいのですが、どちらのモデルも統計的に有意ではないようです。それで除外しても大丈夫ですか、それとも含める必要がありますか?

4
モデルを検証するためにデータをサブセット化することは必須ですか?
モデルの検証に関して、上司と同じページを表示するのに苦労しています。私は残差を分析し(近似値に対して観察された)、これを引数として使用してモデルによって得られた結果を議論しましたが、上司は、モデルを検証する唯一の方法はデータのランダムなサブセットを作成することであると主張し、 70%のモデルを生成し、残りの30%にモデルを適用します。 実は、私の応答変数はゼロに膨らんでいて(その85%、より正確にするため)、結果に収束するのはすでに非常に難しいので、サブセットを作成しない方がいいです。 だから、私の質問は:モデルを検証するための可能な(そして科学的に受け入れられる)方法は何ですか?データのサブセット化は唯一の方法ですか?可能であれば、質問を記事や本で参照してください。そうすれば、選択肢を提示するときに、それを引数として使用できます。


1
ポアソンGLMMの異分散性の解決
長期的な収集データがあり、収集した動物の数が天候の影響によって影響を受けるかどうかをテストしたいと思います。私のモデルは以下のようになります: glmer(SumOfCatch ~ I(pc.act.1^2) +I(pc.act.2^2) + I(pc.may.1^2) + I(pc.may.2^2) + SampSize + as.factor(samp.prog) + (1|year/month), control=glmerControl(optimizer="bobyqa", optCtrl=list(maxfun=1e9,npt=5)), family="poisson", data=a2) 使用される変数の説明: SumOfCatch:収集された動物の数 pc.act.1、pc.act.2:サンプリング中の気象条件を表す主成分の軸 pc.may.1、pc.may.2:5月の気象条件を表すPCの軸 SampSize:落とし穴トラップの数、または標準の長さのトランセクトの収集 samp.prog:サンプリングの方法 年:サンプリングの年(1993年から2002年まで) 月:サンプリングの月(8月から11月まで) フィットされたモデルの残差は、フィットされた値に対してプロットすると、かなりの不均一性(異分散性?)を示します(図1を参照)。 私の主な質問は、これは私のモデルの信頼性を疑わしいものにする問題ですか?もしそうなら、それを解決するために私は何ができますか? これまでのところ、私は以下を試しました: 観測レベルの変量効果を定義することによって過剰分散を制御します。つまり、観測ごとに一意のIDを使用し、このID変数を変量効果として適用します。私のデータはかなりの過剰分散を示していますが、残差がさらに醜くなったため、これは役に立ちませんでした(図2を参照) ランダムエフェクトのないモデルを、準ポアソンglmとglm.nbでフィッティングしました。元のモデルと同様の残差プロットと近似プロットも生成しました 私の知る限り、異分散性一貫性のある標準誤差を推定する方法はあるかもしれませんが、Rのポアソン(または他の種類の)GLMMに対してそのような方法を見つけることはできませんでした。 @FlorianHartigへの応答:データセット内の観測値の数はN = 554であり、これはかなりの観測値だと思います。そのようなモデルの数ですが、もちろん、より多くの陽気です。2つの図を投稿します。最初の図は、DHARMaでスケーリングされたメインモデルの残差プロット(Florianが推奨)です。 2番目の図は2番目のモデルからのもので、唯一の違いは観測レベルの変量効果が含まれていることです(最初のモデルには含まれていません)。 更新 気象変数(予測子、つまりx軸)とサンプリングの成功(応答)の関係の図: アップデートII。 予測値と残差を示す図:

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
混合効果の可能性と推定ロジスティック回帰
最初に、固定部分とランダム部分を持つロジスティック回帰のデータをシミュレートします。 set.seed(1) n <- 100 x <- runif(n) z <- sample(c(0,1), n, replace=TRUE) b <- rnorm(2) beta <- c(0.4, 0.8) X <- model.matrix(~x) Z <- cbind(z, 1-z) eta <- X%*%beta + Z%*%b pr <- 1/(1+exp(-eta)) y <- rbinom(n, 1, pr) ランダムな部分がないロジスティック回帰を近似したいだけの場合は、次のglm関数を使用できます。 glm(y~x, family="binomial") glm(y~x, family="binomial")$coefficients # (Intercept) x # -0.2992785 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.