タグ付けされた質問 「mixed-model」

混合(別名マルチレベルまたは階層)モデルは、固定効果と変量効果の両方を含む線形モデルです。これらは、長期的またはネストされたデータをモデル化するために使用されます。

2
制限付き最尤法が分散のより良い(バイアスされていない)推定値をもたらすのはなぜですか?
Rのlme4パッケージに関するDoug Batesの理論の論文を読んで、混合モデルの要点をよりよく理解し、制限付き最尤(REML)を使用して分散を推定することについて、より理解したい興味深い結果に出会いました。 REML基準のセクション3.3で、分散推定におけるREMLの使用は、近似線形モデルの残差から分散を推定するときの自由度補正の使用と密接に関連していると述べています。特に、「通常はこの方法で導出されることはありませんが」、「REML基準」の最適化を通じて分散を推定することにより、自由度補正を導出できます(式(28))。REML基準は基本的には尤度だけですが、線形フィットパラメーターは、(バイアスされたサンプル分散を与えるフィット推定に等しく設定する代わりに)マージナライズすることで削除されました。 私は計算を行い、固定効果のみの単純な線形モデルに対して主張された結果を検証しました。私が苦労しているのは解釈です。適合パラメーターが取り除かれた可能性を最適化することによって分散推定値を導き出すことが自然であるいくつかの視点がありますか?確率を事後として考え、フィット変数をランダム変数であるかのように取り除いているかのように、それはベイジアンのような感じです。 それとも正当化は主に数学的なものですか?それは線形の場合に機能しますが、一般化も可能ですか?

1
サンプリング変数を使用した混合効果モデルの設計
lme4実験計画の線形混合効果モデル(を使用)の式を指定しようとしていますが、正しく実行されているかどうかはわかりません。 設計:基本的には植物の応答パラメーターを測定しています。私は4つのレベルの治療と2つの灌漑レベルがあります。植物は16のプロットにグループ化され、各プロット内で4つのサブプロットをサンプリングします。各サブプロットで、15から30の間の観測値をとります(見つかった植物の数に依存します)。つまり、合計1500行あります。 当初、サブプロットレベルはサンプリングのためだけにありましたが、サブプロットごとに多くの変動があることがわかったので、モデルで(64レベル変数として)考慮に入れたいと思いました。 、同じプロット内でも(プロット全体のばらつきよりも大きい)。 私の最初のアイデアは、書くことでした: library(lme4) fit <- lmer(y ~ treatment*irrigation + (1|subplot/plot), data=mydata) または fit <- lmer(y ~ treatment*irrigation + (1|subplot) + (1|plot), data=mydata) あれは正しいですか?数式でプロットとサブプロットの両方のレベルを維持する必要があるかどうかはわかりません。固定効果は重要ではありませんが、ランダム効果は非常に重要です。

2
ランダムインターセプトモデルとGEE
ランダムな切片の線形モデルを考えます。これは、交換可能な有効な相関行列を使用したGEE線形回帰に相当します。予測因子であると仮定しおよびおよびこれらの予測のための係数であり、、および。ランダムインターセプトモデルの係数の解釈は何ですか?個人レベルであることを除いて、GEE線形回帰と同じですか?X 3 β 1 β 2 β 3バツ1、x2、x1,x2,x_1, x_2,バツ3x3x_3β1β1\beta_1β2β2\beta_2β3β3\beta_3

2
Rの複雑な調査データへのマルチレベルモデルの近似
Rのマルチレベルモデルで複雑な調査データを分析する方法に関するアドバイスを探していsurveyます。1レベルモデルでの選択の等しくない確率を重み付けするためにパッケージを使用しましたが、このパッケージにはマルチレベルモデリングの機能がありません。このlme4パッケージはマルチレベルモデリングに最適ですが、クラスタリングのさまざまなレベルで重みを含める方法を知る方法はありません。Asparouhov(2006)は問題を設定します: マルチレベルモデルは、クラスターサンプリング設計からのデータを分析するために頻繁に使用されます。ただし、このようなサンプリング設計では、クラスターレベルと個々のレベルで選択の確率が等しくないことがよくあります。サンプリングの重みは、これらの確率を反映するために、1つまたは両方のレベルで割り当てられます。いずれかのレベルでサンプリングの重みが無視された場合、パラメーター推定値は大幅にバイアスされる可能性があります。 2レベルモデルの1つのアプローチは、MPLUSに実装されているマルチレベルの疑似最尤(MPML)推定器です(Asparouhov et al、?)。Carle(2009)は主要なソフトウェアパッケージをレビューし、続行方法についていくつかの推奨事項を作成します。 複雑な調査データと設計の重みでMLMを適切に実施するには、アナリストは、プログラムの外部でスケーリングされた重みを含み、自動プログラム変更なしで「新しい」スケーリングされた重みを含むことができるソフトウェアが必要です。現在、3つの主要なMLMソフトウェアプログラムがこれを可能にしています:Mplus(5.2)、MLwiN(2.02)、およびGLLAMM。残念ながら、HLMもSASもこれを行うことはできません。 WestとGalecki(2013)はさらに最新のレビューを提供しています。関連する一節を詳しく引用します。 時折、アナリストは、複雑なデザインのサンプルから収集されたデータセットを調査するためにLMMを適合させたいと望んでいます(Heeringa et al、2010、Chapter 12を参照)。複雑なサンプル設計は、一般に、人口を層に分割すること、層内から個人のクラスターを多段階で選択すること、およびクラスターとサンプリングされた最終的な個人の両方の選択確率が等しくないことを特徴とします。これらの等しくない選択確率は、一般的に個人のサンプリング重みの構築につながり、分析に組み込まれたときに記述パラメータの公平な推定を保証します。これらの重みは、調査の非応答用にさらに調整され、既知の母集団の合計に合わせて調整される場合があります。伝統的に、アナリストは、回帰モデルを推定するときに、これらの複雑なサンプリング機能を組み込むための設計ベースのアプローチを検討する場合があります(Heeringa et al。、2010)。最近では、統計学者がこれらのデータを分析するためのモデルベースのアプローチを模索し始めており、LMMを使用してサンプリング層の固定効果とサンプリングされたクラスターのランダム効果を組み込んでいます。 これらのデータを分析するためのモデルベースのアプローチの開発における主な困難は、サンプリングの重みを組み込むための適切な方法を選択することでした(問題の概要については、Gelman、2007を参照してください)。Pfeffermann et al。(1998)、Asparouhov and Muthen(2006)、およびRabe-Hesketh and Skrondal(2006)は、調査の重みを組み込んだ方法でマルチレベルモデルを推定する理論を開発しました。Rabe-HeskethおよびSkrondal(2006)、Carle(2009)そしてHeeringa等。(2010年、第12章)は、現在のソフトウェア手順を使用したアプリケーションを提示していますが、これは引き続き統計研究の活発な分野です。LMMをフィッティングできるソフトウェア手順は、これまでに複雑な設計機能を組み込むために文献で提案されてきたアプローチを実装するさまざまな段階にあります。分析者は、LMMを複雑なサンプル調査データにフィッティングするときにこれを考慮する必要があります。複雑なサンプル調査から収集されたデータにLMMをフィッティングすることに関心のあるアナリストは、調査の重みを推定手順(HLM、MLwiN、Mplus、xtmixed、およびgllamm)に正しく組み込むことができる手順に惹かれます。範囲。 これは私に私の質問をもたらします:Rの複雑な調査データにLMMをフィッティングするためのベストプラクティスの推奨事項はありますか?

1
マージナルモデルと変量効果モデル–どちらを選択するか?素人へのアドバイス
周辺モデルと変量効果モデル、およびそれらの間の選択方法に関する情報を検索すると、いくつかの情報が見つかりましたが、それは多かれ少なかれ数学的な抽象的な説明でした(例:https://stats.stackexchange .com / a / 68753/38080)。どこかで、これら2つのメソッド/モデル(http://www.biomedcentral.com/1471-2288/2/15/)の間のパラメーター推定値の間に実質的な違いが観察されたことがわかりましたが、その反対はZuur et alによって書かれました。(2009、p。116; http://link.springer.com/book/10.1007%2F978-0-387-87458-6)。マージナルモデル(一般化推定方程式アプローチ)は母集団平均パラメーターをもたらしますが、ランダム効果モデル(一般化線形混合モデル)からの出力はランダム効果を考慮します–主題(Verbeke et al。2010、pp。49–52; http:/ /link.springer.com/chapter/10.1007/0-387-28980-1_16)。 非統計学者や非数学者に馴染みのある言語で、いくつかのモデル(実生活)の例に示されているこれらのモデルの素人のような説明を見せてください。 詳しく知りたいのですが: 周辺モデルを使用する必要がある場合と、変量効果モデルを使用する必要がある場合 これらのモデルはどの科学的質問に適していますか? これらのモデルからの出力はどのように解釈されるべきですか?

2
一般化線形混合モデル:診断
ランダムな切片ロジスティック回帰(繰り返し測定による)があり、特に外れ値と影響力のある観測に関して、いくつかの診断を行いたいと思います。 残差を見て、目立つ観測があるかどうかを確認しました。しかし、クックの距離やDFFITSのようなものも見てみたいと思います。HosmerとLemeshow(2000)は、相関データのモデル診断ツールがないため、相関を無視して通常のロジスティック回帰モデルに適合させ、通常のロジスティック回帰に使用できる診断ツールを使用する必要があると述べています。彼らは、これは診断をまったく行わないよりもましだと主張している。 この本は2000年のもので、混合効果ロジスティック回帰によるモデル診断に現在利用できる方法はあるのでしょうか。外れ値をチェックするための良いアプローチは何でしょうか? 編集(2013年11月5日): 応答がないため、混合モデルで診断を行うことが一般的に行われていないのか、それともデータのモデリング時に重要なステップではないのかと思います。だから私の質問を言い換えましょう:「良い」回帰モデルを見つけたらどうしますか?

1
連続予測とカテゴリー予測の間の相互作用のための混合モデルの複数比較
lme4混合効果の回帰を当てはめmultcomp、ペアごとの比較を計算するために使用したいと思います。複数の連続したカテゴリカル予測子を含む複雑なデータセットがありますが、組み込みのChickWeightデータセットを例として使用して、私の質問を示すことができます。 m <- lmer(weight ~ Time * Diet + (1 | Chick), data=ChickWeight, REML=F) Time継続的でDietカテゴリー的(4レベル)であり、食事ごとに複数のひよこがあります。すべてのひよこはほぼ同じ体重で開始しましたが、餌は成長率に影響を与える可能性があるため、Diet切片は(多かれ少なかれ)同じでなければなりませんが、勾配は異なる場合があります。私はDietこのような切片効果のペアワイズ比較を得ることができます: summary(glht(m, linfct=mcp(Diet = "Tukey"))) そして、確かに、それらは大幅に異なっていませんが、Time:Diet効果の類似のテストをどのように行うことができますか?相互作用項を単にに入れるとmcpエラーが発生します。 summary(glht(m, linfct=mcp('Time:Diet' = "Tukey"))) Error in summary(glht(m, linfct = mcp(`Time:Diet` = "Tukey"))) : error in evaluating the argument 'object' in selecting a method for function 'summary': Error in mcp2matrix(model, linfct …

1
混合効果モデルの残差をブートストラップすると、なぜ保守的な信頼区間が得られないのですか?
私は通常、複数の個人がそれぞれ2つ以上の条件のそれぞれで複数回測定されるデータを扱います。私は最近、条件間の差異の証拠を評価するために混合効果モデリングを試しindividual、ランダム効果としてモデリングしています。そのようなモデリングからの予測に関する不確実性を視覚化するために、私はブートストラップを使用しており、ブートストラップの各反復で、個体と観測内の条件内の両方が置換でサンプリングされ、新しい混合効果モデルが予測から計算されます取得されます。これは、ガウス誤差を仮定するデータに対しては正常に機能しますが、データが2項式の場合、各反復で比較的計算集中型の2項式混合効果モデルを計算する必要があるため、ブートストラップに非常に長い時間がかかる可能性があります。 私が考えていたのは、元のモデルの残差を使用して、ブートストラップの生データの代わりにこれらの残差を使用できるため、ブートストラップの各反復でガウス混合効果モデルを計算できるというものでした。生データの二項モデルからの元の予測を残差からのブートストラップ予測に追加すると、元の予測の95%CIが生成されます。 ただし、私は最近、このアプローチの簡単な評価をコード化し、2つの条件の差をモデル化せず、95%信頼区間にゼロを含めることができなかった時間の割合を計算しました。上記の残差ベースのブートストラップ手順では、かなり強い反保守的な間隔(ゼロを除外するのは、時間の5%以上)。さらに、元のガウシアンであるデータに適用した場合と同様に、このアプローチの同様の評価をコード化し(以前と同じリンク)、同様に(極端ではないが)反保守的なCIを取得しました。これがなぜなのか、何か考えはありますか?

3
事後処理制御設計における相互作用効果の効果サイズ
混合ANOVAを使用して、連続従属変数を使用して治療前後の制御デザインを分析する場合、治療グループにいることの効果を定量化するさまざまな方法があります。相互作用効果は1つの主要なオプションです。 一般的に、私はコーエンのdタイプのメジャー(つまり、)が特に好きです。結果はグループの相対的なサンプルサイズなどの無関係な要因に基づいて変化するため、分散説明メジャーは好きではありません。μ1- μ2σμ1−μ2σ{\frac{\mu_1 - \mu_2}{\sigma}} そこで、次のように効果を数値化できると考えていました Δのμc= μc 2- μc 1Δμc=μc2−μc1\Delta\mu_c = \mu_{c2} - \mu_{c1} Δのμt= μt 2- μt 1Δμt=μt2−μt1\Delta\mu_t = \mu_{t2} - \mu_{t1} したがって、効果サイズはとして定義できますΔのμt- Δ μcσΔμt−Δμcσ\frac{\Delta\mu_t - \Delta\mu_c}{\sigma} ここで、はコントロール、は治療、1と2はそれぞれ前と後を示します。 は、時間1のプールされた標準偏差である可能性があります。ccctttσσ\sigma 質問: この効果の大きさの測定にラベルを付けることは適切dですか? このアプローチは合理的ですか? そのようなデザインの効果サイズ測定の標準的な方法は何ですか?


1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
縦断データの機械学習手法
縦断的データをモデル化するための機械学習技術(教師なし)があるかどうか疑問に思いましたか?私は常に混合効果モデル(主に非線形)を使用してきましたが、これを(機械学習を使用して)実行する他の方法があるかどうか疑問に思っていました。 機械学習とは、ランダムフォレスト、分類/クラスタリング、決定木、さらには深層学習などを意味します。

2
lmerから自由度を取得する
lmerモデルを次のように適合させました(ただし、出力は構成されています)。 Random effects: Groups Name Std.Dev. day:sample (Intercept) 0.09 sample (Intercept) 0.42 Residual 0.023 次の式を使用して、各効果の信頼区間を作成したいと思います。 (n−1)s2χ2α/2,n−1,(n−1)s2χ21−α/2,n−1(n−1)s2χα/2,n−12,(n−1)s2χ1−α/2,n−12 \frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}},\frac{(n-1)s^2}{\chi^2_{1-\alpha/2,n-1}} 自由度を便利に取得する方法はありますか?

2
lme4 :: lmerは3因子反復測定分散分析に相当しますか?
私の質問は、どのモデルが双方向反復測定分散分析に対応するかを示したこの応答に基づいていますlme4::lmer。 require(lme4) set.seed(1234) d <- data.frame( y = rnorm(96), subject = factor(rep(1:12, 4)), a = factor(rep(1:2, each=24)), b = factor(rep(rep(1:2, each=12))), c = factor(rep(rep(1:2, each=48)))) # standard two-way repeated measures ANOVA: summary(aov(y~a*b+Error(subject/(a*b)), d[d$c == "1",])) # corresponding lmer call: anova(lmer(y ~ a*b+(1|subject) + (1|a:subject) + (1|b:subject), d[d$c == "1",])) 私の質問は、これを三元配置分散分析の場合に拡張する方法です。 …

5
混合効果モデルを使用するのはいつですか?
線形混合効果モデルは、グループで収集および要約されるデータの線形回帰モデルの拡張です。主な利点は、係数が1つ以上のグループ変数に対して変化する可能性があることです。 しかし、混合効果モデルをいつ使用するかと悩んでいますか?極端なケースのおもちゃの例を使用して、質問を詳しく説明します。 動物の身長と体重をモデル化し、種をグループ化変数として使用するとします。 異なるグループ/種が本当に異なる場合。犬と象を言う。混合効果モデルを使用する意味はないと思います。グループごとにモデルを作成する必要があります。 異なるグループ/種が本当に類似している場合。雌犬と雄犬と言います。モデルのカテゴリ変数として性別を使用したいと思うかもしれません。 では、中間のケースでは混合効果モデルを使用する必要があると思いますか?たとえば、グループは猫、犬、ウサギで、サイズは似ていますが異なる動物です。 混合効果モデルをいつ使用するか、つまりどのように線を引くかを示唆する正式な議論はありますか 各グループのモデルを構築する 混合効果モデル グループを回帰のカテゴリ変数として使用する 私の試み:方法1は最も「複雑なモデル」/自由度が低く、方法3は最も「単純なモデル」/自由度が高いです。そして、混合効果モデルが真ん中にあります。Bais Variance Trade Offに従って、適切なモデルを選択するために必要なデータ量と複雑なデータを検討する場合があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.