混合効果モデルにすべての可能性が含まれる場合の固定効果とランダム効果


15

混合効果モデルでは、可能なレベルがすべて含まれている場合(男性と女性の両方など)、固定効果を使用してパラメーターを推定することをお勧めします。さらに、含まれるレベルが母集団(可能性のある患者の宇宙から登録された患者)からのランダムなサンプルであり、平均値の代わりに母集団の平均と分散を推定する場合、変数を説明するためにランダム効果を使用することをさらにお勧めします個々の因子レベルの。

この方法で常に固定効果を使用することが論理的に義務付けられているのかどうか疑問に思っています。開発によって足/靴のサイズがどのように変化し、たとえば身長、体重、年齢に関連するかについての研究を検討してください。 Side長年にわたる測定値が特定のフィート内にネストされ、独立していないという事実を説明するために、モデルに何らかの形で明確に含める必要があります。さらに、右と左はすべて存在する可能性です。さらに、特定の参加者の右足が左足よりも大きい(または小さい)ことは事実です。ただし、すべての人の足のサイズは足によって多少異なりますが、平均して右足が左足よりも大きいと考える理由はありません。サンプルに含まれている場合、これはおそらく、右足に内在するものではなく、サンプルに含まれる人々の遺伝学に関する何かによるものです。最後に、sdeは迷惑なパラメータのように見えますが、あなたが本当に気にするものではありません。

この例を作成したことに注意してください。それは何の役にも立たないかもしれません。アイデアを広めるためだけです。私が知っているすべての人にとって、旧石器時代の生存には大きな右足と小さな左足が必要でした。

このような場合、ランダムな効果としてモデルにを組み込むことは(より多く/より少なく/任意に)意味があるsdeでしょうか?ここで固定効果とランダム効果を使用する場合の長所と短所は何でしょうか?


因子のレベルが2つしかない場合、サイドをランダムな因子として扱うのはなぜですか?問題設定のランダム性はどこから来ますか?
アーロン・ゼン14年

@AaronZeng、私の例の質は別にして、それが私の質問です。すべての可能なレベルがある場合、レベルをランダムな効果で表す理由はありますか。問題の要素のレベルが2を超える場合はどうなりますか?
GUNG -復活モニカ

1
@gung私はちょうどこのスレッドに戻ってきました-答えのいずれかが役立ちましたか?そうでない場合-さらに何を学びたいですか?あなた自身の答えがあるかもしれません(もしそうなら、この問題についてもっと知りたいと思います!)?
ティム

2
@Timに戻ってから久しぶりです。私は両方の答えに感謝します(私はそれらを支持しました)が、それらは私が探していたものとはまったく異なります(おそらく不十分に明確な質問文のため)。Ben Bolkerがさまざまな場所に投稿したいくつかの回答をコンパイルすることを考えましたが、それは少しの作業であり、実際にそれを達成したことはありません。それでも、私はやるべきことです。ナッジをありがとう。
GUNG -復活モニカ

回答:


13

「固定」および「ランダム」効果の一般的な問題は、それらが一貫した方法で定義されていないことです。Andrew Gelmanはそれらのいくつかを引用しています。

(1)固定効果は個人間で一定であり、ランダム効果は異なります。たとえば、成長の研究では、ランダムな切片 と固定勾配bを持つモデルは、異なる個人iの平行線、またはモデルy i t = a i + b tに対応します。したがって、KreftとDe Leeuw(1998)は、固定係数とランダム係数を区別しています。abyt=a+bt

(2)効果は、それ自体が興味深い場合は固定され、基礎となる母集団に関心がある場合はランダムです。Searle、Casella、およびMcCulloch(1992、セクション1.4)は、この区別を詳細に調査しています。

(3)「サンプルが母集団を使い果たすと、対応する変数は固定されます。サンプルが母集団の小さな(つまり無視できる)部分である場合、対応する変数はランダムです。」(Green and Tukey、1960)

(4)「効果が確率変数の実現値であると想定される場合、それはランダム効果と呼ばれます。」(LaMotte、1983)

(5)固定効果は最小二乗法(または、より一般的には最尤法)を使用して推定され、ランダム効果は収縮を使用して推定されます(Robinson、1991年の用語における「線形不偏予測」)。この定義は、マルチレベルモデリングの文献(たとえば、Snijders and Bosker、1999、Section 4.2を参照)および計量経済学の標準です。

そして、それらが一貫していないことに気づきます。彼の著書「回帰分析とマルチレベル/階層モデル使用したデータ分析」では、一般にこれらの用語の使用を避けており、仕事ではグループの切片と勾配の間の固定または変化に焦点を当てています。

固定効果は、より高いレベルの分散が(モデル(1.1)で、これは次のようになり、ランダム効果の特殊な場合とみなすことができる )に設定されている0または。したがって、フレームワークでは、すべての回帰パラメーターは「ランダム」であり、「マルチレベル」という用語はすべて包括的です。σα20

これは、すべての効果がランダムである混合モデルに一般的に使用されるベイジアンフレームワークで特に当てはまります。ベイジアンを考えているのであれば、「固定」効果とポイント推定値にあまり関心がなく、すべての効果をランダムとして扱うことに問題はありません。

このトピックを読んでいるほど、これはむしろ私たちが推定できる(またはすべき)ものと予測できるものに関するイデオロギー的な議論であると確信しています(ここであなた自身の答えも参照できます)。可能性のある結果のランダムなサンプルがある場合は、ランダム効果を使用するため、個々の推定値については気にせず、母集団の影響を気にしてから個人を気にします。したがって、あなたの質問の答えは、データが与えられた場合の固定効果を望むか、または推定できるかどうかについても考えます。すべての可能なレベルがデータに含まれている場合、次のことができます固定効果を推定します-また、あなたの例のように、レベルの数が少なくなる可能性があり、それは一般にランダム効果を推定するのには向かないでしょう。これにはいくつかの最小要件があります

ベストケースシナリオの引数

無制限のデータ量と無制限の計算能力があるとします。この場合、固定効果を使用すると柔軟性が高まるため、すべての効果を固定として推定することを想像できます(個々の効果を比較できるようにします)。ただし、この場合でも、私たちのほとんどは、すべてに固定効果を使用したがりません。

たとえば、ある地域の学校の試験結果をモデル化し、その地域の100校すべてのデータがあるとします。この場合、すべてのレベルのデータを持っているため、学校を固定されたものとして脅威にさらすことができますが、実際には、おそらくそれらをランダムに考えるでしょう。何故ですか?

  1. 理由の1つは、一般的にこの種のケースでは、個々の学校の影響に関心がなく(すべてを比較するのは難しい)、むしろ学校間の一般的なばらつきです。

  2. ここでのもう1つの議論は、モデルの節約です。一般に、「あらゆる可能性のある影響」モデルには関心がないため、モデルには、他の可能性のある変動要因についてテストおよび制御する固定効果をほとんど含めません。これにより、混合効果モデルは、何かを推定して他のことを制御する統計モデリングに関する一般的な考え方に適合します。複雑な(マルチレベルまたは階層)データでは、多くの効果を含めることができるため、それらを制御するために「固定」と「ランダム」の両方を脅かします。

  3. このシナリオでは、学校がそれぞれ独自のユニークな結果への影響を持っていると考えるのではなく、一般的に何らかの影響を与えている学校についても考えています。したがって、この議論は、個々の学校のユニークな効果を推定することは実際には不可能であると考えているため、可能性のある学校の効果のランダムなサンプルとしてそれらを脅かすことです。

混合効果モデルは、「すべてが修正された」シナリオと「すべてがランダムな」シナリオの間のどこかにあります。遭遇するデータにより、すべてを固定効果として推定するための期待を下げることができるため、比較する効果と制御する効果を決定するか、それらの影響について一般的な感覚を持ちます。データが何であるかだけでなく、データをモデル化する際にどのように考えるかということも重要です。


ここにたくさんの良い点があります、@ Tim。私はあなたの意見がOPのグングの例に何があるのだろうと思っています。私の答えの下のコメントには長い議論がありましたが、今では最終的に多かれ少なかれ解決されたと思います。あなたが私が書いたことに同意するか、おそらく同意しないかどうかを知るのは良いことです。
アメーバは、モニカーを復活させる

@amoebaこれは興味深い答えです(私はすでに+1しました)。あなたの主張に同意します。私は本質的にgungは正しいと思います(ゲルマンと同じ-常に正しい:))、単一の答えはありません。混合効果モデルを採用する明確な区別がない膨大な文献と複数の方法があります。さらに、デフォルトでは常にすべてに固定効果を使用する人がいます。また、一般的に固定効果と考える場合でも、可能な限りランダム効果を使用する人がいます。モデル。
ティム

13

エグゼクティブサマリー

実際に、可能性のあるすべての因子レベルが混合モデルに含まれる場合、この因子は固定効果として扱われるべきであるとよく言われます。これは、2つの明確な理由に必ずしも当てはまりません。

(1)レベルの数が多い場合、[交差]因子をランダムとして扱うことは理にかなっています。

ここで@Timと@RobertLongの両方に同意します:すべてのモデルに含まれる多数のレベルがある場合(たとえば、世界のすべての国、または国のすべての学校、または対象を調査するなど)、それをランダムとして扱うことには何の問題もありません。

lmer(size ~ age + subjectID)                     # fixed effect
lmer(size ~ age + (1|subjectID))                 # random effect

(2)因子が別のランダム効果内にネストされている場合、レベル数に関係なく、因子をランダムとして扱う必要があります。

他の回答は上記のケース#1に関するものであるため、このスレッドには大きな混乱がありました(コメントを参照)が、ここで示した例は異なる状況、つまりこのケース#2の例です。ここには2つのレベルしかありません(つまり、「大きな数」ではありません!)、すべての可能性を使い果たしますが、別のランダム効果内にネストされ、ネストされたランダム効果を生成します。

lmer(size ~ age + (1|subject) + (1|subject:side)  # side HAS to be random

あなたの例の詳細な議論

想像上の実験の側面と主題は、標準的な階層モデルの例のクラスや学校のように関連しています。おそらく、各学校(#1、#2、#3など)にはクラスAとクラスBがあり、これら2つのクラスはほぼ同じであると想定されています。クラスAとBを2つのレベルを持つ固定効果としてモデル化しません。これは間違いです。ただし、クラスAとBを2つのレベルを持つ「別個の」(つまり交差した)ランダム効果としてモデル化することはありません。これも間違いです。代わりに、クラスを次のようにモデル化します学校内でネストされたランダム効果

こちらをご覧ください: 交差ランダム効果と入れ子ランダム効果:lme4でどのように違い、どのように正しく指定されていますか?

=1nj=12

サイズjk=μ+α高さjk+β重量jk+γ年齢jk+ϵ+ϵj+ϵjk
ϵN0σsあなたはbjects2各被験者のランダム切片
ϵjN0σサブジェクトサイド2ランダム整数 サブジェクトにネストされた側
ϵjkN0σノイズ2エラー用語

自分で書いたように、「平均して右足が左足よりも大きいと信じる理由はありません」。したがって、右足または左足の「グローバルな」効果(固定またはランダムな交差のいずれでもない)が存在しないようにする必要があります。代わりに、各被験者は「片方の足」と「もう片方の」足を持っていると考えることができ、この変動性をモデルに含める必要があります。これらの「片方」と「もう片方」の足は被験者内にネストされているため、ランダム効果がネストされています。

コメントへの回答の詳細。[9月26日]

上記の私のモデルには、サブジェクト内にネストされたランダム効果としてサイドが含まれています。@Robertが提案する代替モデルを次に示します。Sideは固定効果です。

サイズjk=μ+α高さjk+β重量jk+γ年齢jk+δj+ϵ+ϵjk

@RobertLongまたは@gungに挑戦して、このモデルが同じサブジェクトの同じサイドの連続測定に存在する依存関係、つまり同じデータポイントの依存関係を処理する方法を説明しますj組み合わせの。

できない。

同じことが、交差ランダム効果としてのSideを持つ@gungの仮想モデルにも当てはまります。

サイズjk=μ+α高さjk+β重量jk+γ年齢jk+ϵ+ϵj+ϵjk

依存関係も考慮されません。

シミュレーションによるデモ[10月2日]

これは、Rでの直接のデモです。

5年連続で両足で測定した5人の被験者を含むおもちゃのデータセットを生成します。年齢の影響は線形です。各被験者にはランダムなインターセプトがあります。また、各被験者の足の1つ(左または右)が他の足よりも大きくなっています。

set.seed(17)

demo = data.frame(expand.grid(age = 1:5,
                              side=c("Left", "Right"),
                              subject=c("Subject A", "Subject B", "Subject C", "Subject D", "Subject E")))
demo$size = 10 + demo$age + rnorm(nrow(demo))/3

for (s in unique(demo$subject)){
  # adding a random intercept for each subject 
  demo[demo$subject==s,]$size = demo[demo$subject==s,]$size + rnorm(1)*10

  # making the two feet of each subject different     
  for (l in unique(demo$side)){
    demo[demo$subject==s & demo$side==l,]$size = demo[demo$subject==s & demo$side==l,]$size + rnorm(1)*7
  }
}

plot(1:50, demo$size)

ひどいRスキルをおApびします。データは次のようになります(連続する5つのドットはそれぞれ、長年にわたって測定された1人の足の1フィートです。連続する10のドットはそれぞれ同じ人の2フィートです)。

ここに画像の説明を入力してください

これで、多数のモデルを適合させることができます。

require(lme4)
summary(lmer(size ~ age + side + (1|subject), demo))
summary(lmer(size ~ age + (1|side) + (1|subject), demo))
summary(lmer(size ~ age + (1|subject/side), demo))

すべてのモデルには、の固定効果ageとのランダム効果が含まれていますsubjectが、処理side方法が異なります。

  1. sideaget=1.8

  2. sideaget=1.4

  3. モデル3:のネストされたランダム効果side。これが私のモデルです。結果:age非常に重要です(t=37、はい、37)、残留分散はごくわずかです(0.07)。

これはside、ネストされたランダム効果として扱う必要があることを明確に示しています。

最後に、@ Robertはコメントでside、制御変数としてのグローバル効果を含めることを提案しました。ネストされたランダム効果を維持しながら、それを行うことができます。

summary(lmer(size ~ age + side + (1|subject/side), demo))
summary(lmer(size ~ age + (1|side) + (1|subject/side), demo))

これらの2つのモデルは、#3と大差ありません。モデル4は、sidet=0.5)。モデル5は、side正確にゼロに等しい分散の推定値を生成します。


2
この例でsideは、因子をランダムvs固定として扱う必要がある場合の通常の定義/ガイドラインのいずれかを満たしているとは本当に思いません。特に、サンプリングされた因子のレベルを超えて推論を行うことは無意味です。さらに、因子のレベルが2つしかないので、因子を固定として扱うことは、モデリングにアプローチするための明確でわかりやすい方法のようです。
ロバートロング

ロバート、返信ありがとう。私は完全に混乱しているか、私が意味することを適切に説明できませんでした。side固定効果として扱うとは、一方の側(右など)が常に他方(左)よりも一定量だけ大きいと想定することです。この金額はすべての人に同じです。これは明らかに OPが念頭に置いていたものではありません。彼は、一部の人では右が大きく、他の人では左であるかもしれないと書いています。ただし、side相関エラーのために考慮する必要があります。なぜネストされたランダム効果として扱うことができないのですか?それはまさに学校内の授業のようなものです。
アメーバは、モニカを復活させる

私はそれが必ずしもそれを意味することを知りません。言うことは、このサンプルでは、​​側面間に系統的な違いがあるかもしれないということです(サンプリングのばらつきによるアーチファクトである場合も、そうでない場合もあります)。私は、モデルに交絡因子を追加し、その係数を解釈しようと夢見さえしないのと同じ方法で、非独立の「制御」としての固定効果としてそれを含めることを好む。
ロバートロング

2
さらに熟考したうえで、あなたの答えを表明します。本当に興味深い点をいくつか挙げます。現時点では、この数学を詳しく調べる時間はありません。可能であれば、再生するおもちゃのデータセットを見つけたいです(知っている場合はお知らせください)
ロバートロング

2
+1、さらに考察すると、あなたはこの研究の特異性について正しいようです。すべての可能性が含まれており、各ケースを個別に評価する必要がある場合、固定効果とランダム効果に対する単一の答えがないという大きなポイントはありますか?
GUNG -復活モニカ

7

他の回答に追加するには:

OPで説明されている方法で常に固定効果を使用することを論理的に義務付けられているとは思わない。因子をランダムとして扱う場合の通常の定義/ガイドラインが満たされていない場合でも、多数のレベルがある場合は因子をランダムとしてモデル化する傾向があります。自由であり、面倒で控えめなモデルになります。


これは理にかなった点のように思えますが、私の例に目がくらんでいなかったことに感謝します。これから収集し、@ amoebaの答えに対するあなたのコメントは、「多数のレベルがある場合」(「2つのレベルの要素のみ」に対して)が重要であると思われます。
GUNG -復活モニカ

1
1私はこの点に同意しているため、それは私がドライブビット、ナット、私は私のポイントを説明するために失敗し、あなたも@gungどちらも私が何を意味するのか見ているということ。治療sideのいずれかの固定または交差ランダム効果として必ずしも側面(例えば右)の一つは、常にすべての被験者に対して、(左)、他のよりも大きいと仮定を意味します。これは明らかに、グンが彼のOPで書いたものではなく、「右足が平均して左足よりも大きいと信じる理由はない」と述べている。gungの例は、学校内のクラスと完全に類似しており、入れ子になったランダム効果の明確なケースとしてまだ見ています。
アメーバは、モニカを復活させる

@amoeba興味深い点ですが、私は同意しません。私は...あなたの答えをコメント欄にコメントします
ロバート・ロング

4

関心のある要因のすべての可能なレベルを知っており、効果を推定するためのデータも持っている状況について話している場合、間違いなくレベルをランダムな効果で表す必要はありません。

因子にランダム効果を設定する理由は、通常は未知であるその因子のすべてのレベルの効果を推測したいからです。この種の推論を行うには、すべてのレベルの効果が一般に正規分布を形成するという仮定を課します。ただし、問題の設定を考えると、すべてのレベルの影響を推定できます。その場合、確かにランダム効果を設定して追加の仮定を課す必要はありません。

これは、母集団のすべての値を取得できる状況のようなものです(したがって、真の平均を知っています)が、母集団から大きなサンプルを取得し、中心極限定理を使用してサンプリング分布を近似しようとしています。真の意味を推測します。


2
1つのコメント:すべてのレベルを持っている場合でも、それらにランダム効果を使用することがあります。たとえば、教育に関する全国規模の調査を実施し、すべての学校のデータを持っていますが、それでも各学校にダミーを使用するのではなく、学校にランダム効果を使用します。
ティム
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.