タグ付けされた質問 「mixed-model」

混合(別名マルチレベルまたは階層)モデルは、固定効果と変量効果の両方を含む線形モデルです。これらは、長期的またはネストされたデータをモデル化するために使用されます。

2
lme4を使用した混合効果モデルの交互作用項のP値
私はを使用lme4していくつかの行動データを分析していますがR、主にBodo Winterの優れたチュートリアルに従っていますが、インタラクションを適切に処理しているかどうかわかりません。さらに悪いことに、この研究に関与している他の誰も混合モデルを使用していないので、物事が正しいことを確認することに関して、私は少しドリフトしています。 助けを求める叫びを投稿するのではなく、私は問題を解釈するために最善の努力をし、それからあなたの集団的な修正を頼むべきだと思いました。他のいくつかのサイドは次のとおりです。 執筆中に、この質問を見つけました。nlme相互作用項のp値をより直接的に与えることを示していますが、との関係で尋ねることは依然として有効だと思いますlme4。 Livius'この質問への回答には、今後数日で読み進めようとする追加の読み物へのリンクが含まれているので、進展があった場合はコメントします。 私のデータでは、私は、従属変数持ちdv、condition操作(高になるはずである0 =制御、1 =実験条件、dv)、また、ラベルされた前提条件、appropriateコード化された臨床試験:1このためには、効果を示す必要がありますが、試験がコード化された0かもしれないが重要な要素がないためです。 また、各対象内の、および解決された14の各問題内の相関値を反映するsubject、およびの2つのランダムな切片も含めました(各参加者は、各問題のコントロールバージョンと実験バージョンの両方を解決しました)。targetdv library(lme4) data = read.csv("data.csv") null_model = lmer(dv ~ (1 | subject) + (1 | target), data = data) mainfx_model = lmer(dv ~ condition + appropriate + (1 | subject) + (1 | target), data = data) interaction_model = lmer(dv ~ condition …

2
lme4の変量効果の分散共分散構造
でランダム効果のデフォルトの分散-共分散構造は何であるglmerかlmerでlme4パッケージは?コード内の変量効果に対して他の分散共分散構造をどのように指定しますか?lme4ドキュメントにこれに関する情報は見つかりませんでした。

3
一般化線形混合モデル:モデルの選択
この質問/トピックは同僚との話し合いで出てきたものであり、私はこれについていくつかの意見を探していました: 私はランダム効果ロジスティック回帰、より正確にはランダム切片ロジスティック回帰を使用していくつかのデータをモデル化しています。固定効果については、9つの変数があり、これらが考慮に入れられます。ある種のモデル選択を行って、重要な変数を見つけ、「最良の」モデル(主効果のみ)を与えたいと思います。 私の最初のアイデアは、AICを使用してさまざまなモデルを比較することでしたが、9つの変数を使用して、2 ^ 9 = 512のさまざまなモデル(キーワード:データ浚渫)を比較するのはそれほど面白くありませんでした。 これについて同僚と話し合ったところ、GLMMで段階的(またはフォワード)モデル選択を使用することについて読んだことを覚えていると彼は話しました。しかし、p値(たとえば、GLMMの尤度比検定に基づく)を使用する代わりに、AICを出入基準として使用する必要があります。 このアイデアは非常に興味深いものでしたが、これについてさらに説明する参考文献は見つかりませんでした。同僚は彼がどこでそれを読んだか覚えていませんでした。多くの書籍では、AICを使用してモデルを比較することを推奨していますが、これを段階的または順方向のモデル選択手順と一緒に使用することについての議論は見つかりませんでした。 だから私は基本的に2つの質問があります: エントリ/終了基準として段階的モデル選択手順でAICを使用することに問題はありますか?はいの場合、代替手段は何でしょうか? 上記の手順について説明している参考資料はありますか(最終報告の参考資料としても)? ベスト、 エミリア

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
なぜEMとMLEでの勾配降下法を使用する必要があるのですか
数学的には、期待値最大化(EM)の式とアルゴリズムは混合モデルの方が単純であることがよくありますが、EMで解決できるほとんどすべて(すべてではないにしても)はMLEでも解決できるようです(たとえば、 Newton-Raphson法(閉じていない式の場合)。 しかし、文献では、他の方法よりもEMが好まれているようです(たとえば、勾配降下法によるLLの最小化を含む)。それは、これらのモデルが単純であるためですか?それとも他の理由ですか?

3
冗長性を処理するランダム効果モデル
私は、繰り返されるバイナリ結果を使用して、イベント発生までの時間を分析しようとしています。イベント発生までの時間を日数で測定するとしますが、ここでは時間を週単位で離散化するとします。繰り返しバイナリ結果を使用して、カプラン・マイヤー推定量を近似したい(ただし、共変量は可能)。これは遠回りの方法のように見えますが、これが通常の結果や繰り返し発生するイベントにどのように拡張されるかを調査しています。 3週間で打ち切られた誰かが000、4wで打ち切られた誰かが0000、5wで失敗した対象が0000111111111111 ...のようなバイナリシーケンスを作成した場合(1は、最後の対象があった点まで拡張されます)研究で続いています)、1の週固有の比率を計算すると、通常の累積発生率を得ることができます(変数の打ち切り時間に到達するまで、これは概算のみですが、カプランマイヤー累積発生率推定と等しくありません)。 上記のように時間を離散化する代わりに、時間内のスプラインを使用する代わりに、GEEを使用してバイナリロジスティックモデルを使用して、繰り返されたバイナリの観測を近似できます。クラスターサンドイッチ共分散推定器は、適切に機能します。しかし、混合効果モデルを使用して、より正確な推論を得たいと思います。問題は、最初の1の後の1が冗長であることです。だれでも、変量効果を指定する方法、または標準誤差が収縮しないように冗長性を考慮に入れるモデルを指定する方法を知っていますか? エフロンはリスクセットの条件付き確率を推定するためにロジスティックモデルを使用していたため、この設定はエフロンとは異なります。無条件の確率を推定しています。

3
1または-1に等しい変量効果の相関関係をどうするか?
複雑な最大混合モデル(特定のデータとモデルのすべての可能な変量効果を推定する)を扱う場合、それほど珍しいことではありませんが、一部の変量効果の間で完全(+1または-1)またはほぼ完全な相関関係です。議論のために、次のモデルとモデルの要約を見てみましょう Model: Y ~ X*Cond + (X*Cond|subj) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects Random effects: Groups Name …

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
縦断的研究で平均治療効果を推定する最良の方法は何ですか?
縦断的研究では、ユニット結果が時点で繰り返し測定され、合計固定測定機会があります(固定=ユニットの測定は同時に行われます)。YitYitY_{it}iiitttmmm 単位は、治療、または対照群いずれかにランダムに割り当てられます。治療の平均的な効果を推定してテストしたいと思います。つまり、時間と個人全体で期待値が得られます。この目的のために、固定された機会のマルチレベル(混合効果)モデルの使用を検討します。G=1G=1G=1G=0G=0G=0ATE=E(Y|G=1)−E(Y|G=0),ATE=E(Y|G=1)−E(Y|G=0),ATE=E(Y | G=1) - E(Y | G=0), Yit=α+βGi+u0i+eitYit=α+βGi+u0i+eitY_{it} = \alpha + \beta G_i + u_{0i} + e_{it} インターセプト、、ユニットにわたってランダム切片、及び残差を。αα\alphaββ\betaATEATEATEuuueee 今、私は代替モデルを検討しています Yit=β~Gi+∑j=1mκjdij+∑j=1mγjdijGi+u~0i+e~itYit=β~Gi+∑j=1mκjdij+∑j=1mγjdijGi+u~0i+e~itY_{it} = \tilde{\beta} G_i + \sum_{j=1}^m \kappa_j d_{ij} + \sum_{j=1}^m \gamma_j d_{ij} G_i + \tilde{u}_{0i} + \tilde{e}_{it} これは固定効果が含ま都度のためのダミー場合と他。さらに、このモデルには、パラメータを使用した治療と時間の相互作用が含まれています。したがって、このモデルでは、の影響が時間の経過とともに異なる可能性があることを考慮しています。これ自体は参考情報ですが、の不均一性が考慮されるため、パラメーターの推定の精度も向上するはずです。κjκj\kappa_jtttdt=1dt=1d_t=1j=tj=tj=t000γγ\gammaGGGYYY ただし、このモデルでは、係数はと等しくないようです。代わりに、最初にATEを表します()。推定だからよりも効率的かもしれが、それは表していませんもう。β~β~\tilde{\beta}ATEATEATEt=1t=1t=1β~β~\tilde{\beta}ββ\betaATEATEATE 私の質問は: この縦断的研究デザインで治療効果を推定する最良の方法は何ですか? モデル1を使用する必要がありますか、それとも(おそらくより効率的な)モデル2を使用する方法はありますか? にの解釈との機会固有の偏差を持たせる方法はありますか(たとえば、エフェクトコーディングを使用して)?β~β~\tilde{\beta}ATEATEATEγγ\gamma

2
混合効果モデルの「分散成分パラメーター」とは何ですか?
混合効果モデルに関するベイツの本の 12ページで、彼はモデルを次のように説明しています。 スクリーンショットの終わり近くで、彼は 相対共分散係数 に応じて、分散成分パラメータ、θΛθΛθ\Lambda_{\theta}θθ\theta 正確に関係を説明せずに。我々が与えられていると言うどのように我々は導き出すだろう、Λのθ、それから?θθ\thetaΛθΛθ\Lambda_{\theta} 関連するノートでは、これはベイツの説明が少し詳細に欠けていると私が思う多くの例の1つです。パラメータ推定の最適化プロセスとテスト統計の分布の証明を実際に通過するより良いテキストはありますか?

1
GLMMのanovaタイプIIIテスト
Rパッケージのglmerモデルを装着していlme4ます。p値が表示されたanovaテーブルを探していますが、それに適合するパッケージが見つかりません。Rでそれを行うことは可能ですか? 私が適合しているモデルは次の形式です: model1<-glmer(dmn~period*teethTreated+(1|fullName), family="poisson", data=subset(dataset, group=='Four times a year'), control=glmerControl(optimizer="bobyqa"))

2
AIC、anovaエラー:モデルがすべて同じ数の観測値に適合していない、モデルがすべて同じサイズのデータ​​セットに適合していない
私はこのようなモデルを持っています: require(nlme) set.seed(123) n <- 100 k <- 5 cat <- as.factor(rep(1:k, n)) cat_i <- 1:k # intercept per kategorie x <- rep(1:n, each = k) sigma <- 0.2 alpha <- 0.001 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) plot(x, y) m1 <- lm(y ~ x) …
9 r  mixed-model  aic 

1
ランダムなスロープ効果の導入によりスロープのSEが拡大したのはなぜですか?
個人の特定のグループ(3つのグループがあります)の変数logIndに対する年の影響を分析しようとしています。最も単純なモデル: > fix1 = lm(logInd ~ 0 + Group + Year:Group, data = mydata) > summary(fix1) Call: lm(formula = logInd ~ 0 + Group + Year:Group, data = mydata) Residuals: Min 1Q Median 3Q Max -5.5835 -0.3543 -0.0024 0.3944 4.7294 Coefficients: Estimate Std. Error t value Pr(>|t|) Group1 4.6395740 0.0466217 …

2
混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ
以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコード これが私のRコードです: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

2
ランダムな勾配と切片を使用したポアソンGLM混合モデルの近似
現在、一連のポアソン時系列モデルに取り組んでいます。カウントの取得方法の変更(ある診断テストから別のテストへの切り替え)の影響を推定しなが​​ら、他の傾向を経時的に制御しています(たとえば、病気の発生率)。さまざまなサイトのデータがあります。 私もGAMをいじくり回してきましたが、一連のかなり基本的なGLMに時間の傾向を合わせて、結果をプールしました。このためのコードは、SASでは次のようになります。 PROC GENMOD data=work.data descending; model counts = dependent_variable time time*time / link=log dist = poisson; run; またはこれはRで: glm(counts ~ dependent_variable + time + time*time, family="poisson") 次に、それらの見積もりを取得し、さまざまなサイトにプールします。また、プールするのではなく、ランダムな傾斜と各サイトのインターセプトを含むポアソン混合モデルを使用することをお勧めします。したがって、基本的に、dependent_variableの固定効果があり、次に切片と時間(または理想的には時間と時間^ 2のランダム効果)があります。 私の問題は、これらのモデルの1つをどのように合わせるかわからないことです。混合モデルでは、みんなのドキュメントが突然非常に不透明になるようです。誰もが私が適合しようとしているものを適合させる方法、および何を注意すべきかについて簡単な説明(またはコード)を持っていますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.