混合効果モデルを使用するのはいつですか?


11

線形混合効果モデルは、グループで収集および要約されるデータの線形回帰モデルの拡張です。主な利点は、係数が1つ以上のグループ変数に対して変化する可能性があることです。

しかし、混合効果モデルをいつ使用するかと悩んでいますか?極端なケースのおもちゃの例を使用して、質問を詳しく説明します。

動物の身長と体重をモデル化し、種をグループ化変数として使用するとします。

  • 異なるグループ/種が本当に異なる場合。犬と象を言う。混合効果モデルを使用する意味はないと思います。グループごとにモデルを作成する必要があります。

  • 異なるグループ/種が本当に類似している場合。雌犬と雄犬と言います。モデルのカテゴリ変数として性別を使用したいと思うかもしれません。

では、中間のケースでは混合効果モデルを使用する必要があると思いますか?たとえば、グループは猫、犬、ウサギで、サイズは似ていますが異なる動物です。

混合効果モデルをいつ使用するか、つまりどのように線を引くかを示唆する正式な議論はありますか

  1. 各グループのモデルを構築する
  2. 混合効果モデル
  3. グループを回帰のカテゴリ変数として使用する

私の試み:方法1は最も「複雑なモデル」/自由度が低く、方法3は最も「単純なモデル」/自由度が高いです。そして、混合効果モデルが真ん中にあります。Bais Variance Trade Offに従って、適切なモデルを選択するために必要なデータ量と複雑なデータを検討する場合があります。


5
これは、このフォーラムの多くのスレッドで議論されています。いくつか検索しましたか?「カテゴリ変数」を使用するオプションは「グループ化変数の」「固定効果」と呼ばれるものであり、「混合モデルを使用する」とは「ランダム効果」を使用することに注意してください。だからあなたが求めているのは、いつ固定効果を使うのか、いつランダム効果を使うのかということです。この質問にはさまざまな意見がありますが、CVに関する議論はたくさんあります。後でいくつかのリンクを投稿する場合があります。
アメーバは、モニカを

また、「個別のモデルの作成」と「カテゴリー変数の使用」の違いは私には明確ではありません。activity ~ condition + species + condition*species-これはspeciesカテゴリ変数として使用されますが、これは完全activity ~ conditionに各種の個別の回帰と同等です。
アメーバは、モニカを

2
このスレッドをチェックしてください:stats.stackexchange.com/questions/120964/…、それはあなたの質問に直接答えることはしませんが、あなたの質問に密接に関連している議論を提供します。
Tim


2
「異なるグループ/種が本当に異なる場合。犬と象を言います。混合効果モデルを使用する意味はないと思います。グループごとにモデルを作成する必要があります。」これは、他のすべての機能の影響が種によって異なると予想する場合にのみ当てはまります。これは、ほとんどの場合、あまりにも寛大な仮定です。
Matthew Drury 2017

回答:


8

研究者やデータアナリストによる主観的な選択であるという、微妙な、そしておそらく満足のいく答えが得られないかもしれません。このスレッドの他の場所で述べたように、データが「ネストされた構造」を持っていると単純に言うだけでは十分ではありません。しかし、公平を期すために、これはマルチレベルモデルを使用する場合について説明している本の数です。たとえば、私は本棚からJoop Hoxの本Multilevel Analysisを引き出しただけで、次のように定義されています。

マルチレベルの問題は、階層構造を持つ人口に関係しています。

かなり良い教科書でさえ、最初の定義は循環しているようです。これは、どのようなモデル(マルチレベルモデルを含む)をいつ使用するかを決定する主観性に一部起因していると思います。

別の本、West、Welch、およびGaleckiのLinear Mixed Modelsは、これらのモデルは以下のものを対象としていると述べています。

残差が正規分布しているが、独立していない、または一定の分散を持たない結果変数。LMMを使用して適切に分析できるデータセットにつながる研究デザインには、(1)教室の学生などのクラスター化されたデータを使用した研究、または産業プロセス用の原材料のバッチなどのランダムブロックを使用した実験デザイン、および(2)縦断的または反復測定研究。被験者は経時的に、または異なる条件下で繰り返し測定されます。

Finch、Bolin、およびKelleyのRマルチレベルモデリングでも、iidの仮定および相関残差の違反について説明しています。

マルチレベルモデリングのコンテキストで特に重要なのは、サンプル内の個々の観測値の独立して分布した誤差項の[標準回帰における]仮定です。この仮定は本質的に、分析の独立変数が考慮されると、従属変数のサンプル内の個人間には関係がないことを意味します。

観測値が必ずしも互いに独立しているとは限らないと考える理由がある場合、マルチレベルモデルは理にかなっていると思います。この非独立性を説明する「クラスター」が何であれ、モデル化できます。

明白な例は、教室の子供です。彼らはすべて互いに相互作用しているため、テストのスコアが独立していない可能性があります。1つの教室に、他のクラスではカバーされていないそのクラスでカバーされている資料につながる質問をする人がいる場合はどうなりますか?一部のクラスで教師が他のクラスよりも目覚めている場合はどうなりますか?この場合、データにはある程度の非依存性があります。マルチレベルの単語では、従属変数の分散はクラスター(つまり、クラス)によるものであると予想できます。

犬と象の例は、関心のある独立変数と従属変数に依存していると思います。たとえば、活動レベルにカフェインの影響があるかどうかを尋ねているとします。動物園中の動物たちがランダムに割り当てられ、カフェイン入りの飲み物か対照の飲み物をもらいます。

カフェインに関心のある研究者であれば、カフェインの影響に本当に関心があるため、マルチレベルモデルを指定することができます。このモデルは次のように指定されます。

activity ~ condition + (1+condition|species)

これは、この仮説をテストする種が多数ある場合に特に役立ちます。しかし、研究者はカフェインの種固有の効果に興味があるかもしれません。その場合、種を固定効果として指定できます。

activity ~ condition + species + condition*species

たとえば30種があり、扱いにくい2 x 30のデザインを作成している場合、これは明らかに問題です。ただし、これらの関係をどのようにモデル化するかで、かなり創造的になることができます。

たとえば、何人かの研究者は、マルチレベルモデリングのさらに幅広い使用を主張しています。Gelman、Hill、およびYajima(2012)は、データの構造が本質的に明らかに階層的ではない実験的研究においても、マルチレベルモデリングを複数の比較の修正として使用できると主張しています。

より多くの構造を持つ複数の比較をモデル化すると、より難しい問題が発生します。たとえば、5つの結果指標、3つの種類の治療法、および2つの性別と4つの人種グループによって分類されたサブグループがあるとします。この2×3×4×5の構造を、120個の交換可能なグループとしてモデル化したくありません。これらのより複雑な状況でも、マルチレベルモデリングは従来の多重比較手順に取って代わるべきであり、最終的にはそうなると私たちは考えています。

問題はさまざまな方法でモデル化でき、あいまいな場合は、複数のアプローチが魅力的であるように見える場合があります。私たちの仕事は、合理的で情報に基づくアプローチを選択し、それを透過的に行うことだと思います。


5

もちろん、異なるグループごとにモデルを構築することもできますが、これには何の問題もありません。ただし、サンプルサイズを大きくし、複数のモデルを管理する必要があります。

混合モデルを使用すると、データを一緒にプール(および共有)するため、必要なサンプルサイズが小さくなります。

その際、統計的な強さを共有しています。ここでの考え方は、あるデータグループで適切に推論できるものは、別のデータグループでは適切に推論できないものを支援できるということです。

混合モデルは、オーバーサンプリングされたグループが不当に推論を支配することも防ぎます。

私のポイントは、基になる後で階層構造をモデル化する場合は、ランダムな効果をモデルに追加する必要があるということです。それ以外の場合は、モデルの解釈に関心がない場合は使用しません。

https://www.dropbox.com/s/rzi2rsou6h817zz/Datascience%20Presentation.pdf?dl=0

関連する議論を行います。著者は、別の回帰モデルを実行したくない理由を説明しました。

ここに画像の説明を入力してください


4

混合効果モデルでは、ランダム(エラー)項をモデルに追加して、固定効果とランダム効果を「混合」します。したがって、混合効果モデルをいつ使用するかを検討する別のアプローチは、「ランダム効果」とは何かを見ることです。したがって、以前に与えられた回答に加えて、Bates(2010)の有益なセクション1.1(esp。2ページからの「固定」効果と「ランダム」効果の用語の違いもわかります。

共変量の特定のレベルに関連付けられているパラメーターは、レベルの「影響」と呼ばれることがあります。共変量の可能なレベルのセットが固定され、再現性がある場合、固定効果パラメーターを使用して共変量をモデル化します。観察したレベルがすべての可能なレベルのセットからのランダムサンプルを表す場合、 モデルにランダム効果を組み込みます。固定効果パラメーターと変量効果の違いについて、2つの点に注意してください。第1に、固定とランダムの区別は、それらに関連付けられた効果のプロパティよりもカテゴリカル共変量のレベルのプロパティであるため、名前は誤解を招きます。

国や教室の「ランダムな」サンプルが常にあるため、この定義は国や教室などの階層構造に適用されることがよくあります。データはすべての国や教室から収集されたわけではありません。

ただし、セックスは固定されています(または少なくとも固定されているものとして扱われます)。男性または女性の人がいる場合、他の性別レベルはありません(いくつかの性別の例外があるかもしれませんが、これはほとんど無視されます)。

または教育レベルを言う:人々が低、中、高の教育を受けているかどうかを尋ねた場合、レベルは残っていないため、考えられるすべての教育レベルの「ランダムな」サンプルを取得していません(したがって、これは固定効果です)。


2
+1なぜ反対票か これは、変量効果モデリングに関する評判の良い統計学者からの引用です。以下の解説は...かなりストレートフォワードと明確に定義されている
usεr11852

3

研究デザインに基づいて、個々のレベルまたは条件付き効果で観測推論の間の相関関係の性質についていくつかの合理的な仮定を行うことができる場合は、混合モデルを使用します。混合モデルでは、データのコレクションで自然に発生する相関構造の便利な表現である変量効果を指定できます。

最も一般的なタイプの混合モデルは、データセットで識別された個人のクラスター内の0平均有限分散正規分布を持つ共通定数の潜在分布を推定するランダムインターセプトモデルです。このアプローチは、観測のグループまたはクラスターに共通するが、クラスター間で異なる、何百もの交絡要因を考慮する可能性があります。

混合モデルの2番目の一般的なタイプは、ランダムインターセプトモデルと同様に、再びパネルスタディ内の0平均有限分散正規分布またはクラスターから生じる時間予測子相互作用の潜在分布を推定するランダムスロープモデルです。前向きまたは長期的な方法で測定された観察の。

cor(Y1,Y2)=ρY1,Y2cor(Yt,Ys)=ρ|ts|Yt,Yst,sそれ以外の場合は0。ランダムインターセプトはクラスター内の観測値を正に関連付けることを強制するため、結果は同一ではありません。これはほとんど常に妥当な仮定です。

個人レベルまたは条件付き効果は、人口レベルまたは限界効果と対照的です。限界効果は、介入またはスクリーニングによる母集団の効果を表します。例として、薬物乱用リハビリテーションのコンプライアンスを高めるための介入は、さまざまな状態で入院した患者のパネルでの3か月間の出席を検討する場合があります。使用期間は患者によって異なる可能性があり、ワークショップへのコンプライアンスを強く予測します。使用頻度の高い参加者は、習慣性と傾向がより強くなります。個人レベルの分析では、中毒がより長い参加者は介入を受ける前に参加せず、介入を受けた後も参加しなかったという事実にもかかわらず、研究が効果的であることが明らかになる場合があります。

境界効果は、時間または空間内のクラスター間の均質性を無視するため、正確な推論が少なくなります。それらは、一般化された推定方程式を使用して、または混合モデルを周辺化することによって推定できます。


2
+1、2つの回答を受け入れることができるといいのですが。@Markの回答に対する私のコメントは、あなたの回答にも適用されます。「クラスターでの観測」の定義を理解するのに役立ったとお伝えしました
Haitao Du

2
@ hxd1011研究デザインの声明に厳密に基づいています。階層化されたサンプルまたは反復測定のある設計には、独立していないデータが含まれます。これは統計的検定の場合ではありません。ランダムな影響を報告または少なくとも検査することは、相関の程度を理解するのに役立ちます。ICCはそのような測定の例です。
AdamO 2017

0

データが入れ子構造または階層構造を持つ場合は、混合効果を使用する必要があります。同じグループ/レベル内のすべての測定は相関しているため、これは実際には測定の独立性の仮定に違反しています。の場合には

「異なるグループ/種が本当に類似している場合。雌犬と雄犬を言います。モデルのカテゴリ変数として性別を使用したいと思うかもしれません。」

性別は因子変数および固定効果ですが、性別内の犬のサイズの変動は変量効果です。私のモデルは

response ~ sex + (1|size), data=data

直感的に、犬と猫のサイズは相関しないため、ウサギ、犬、猫は別々にモデル化する必要がありますが、2匹の犬のサイズは「種内」のばらつきの一種です。


個人的には、「入れ子または階層構造」という言葉は一般的すぎると思います。
Haitao Du

多分あなたは正しいです。データに何らかのグループ化が存在するためにIIDの仮定に違反する場合は、LMMが使用されると思います。
marianess 2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.