ネストされたvar-covarモデルの中から選択するために(MLではなく)REMLを使用する必要があるのはなぜですか?


16

線形混合モデルのランダム効果に関するモデル選択に関するさまざまな説明は、REMLの使用を指示しています。あるレベルでREMLとMLの違いは知っていますが、MLにバイアスがかかっているため、なぜREMLを使用する必要があるのか​​わかりません。たとえば、MLを使用して正規分布モデルの分散パラメーターでLRTを実行するのは間違っていますか(以下のコードを参照)。モデルの選択において、MLであるよりも偏らないことが重要である理由がわかりません。最終的な答えは「モデル選択がMLよりもREMLの方がうまく機能するため」でなければならないと思いますが、それ以上のことを知りたいと思います。LRTとAICの派生物は読みませんでした(それらを完全に理解するのに十分ではありません)が、派生物でREMLが明示的に使用されている場合は、実際に十分であることを知っているだけです(たとえば、

n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)

loglik1 <- function(p,x,y){
   a <- p[1]
   b <- p[2]
   alpha <- p[3]
  -sum(dnorm(y,a+b*x,alpha,log=T))
}

loglik2 <- function(p,x,y){
   a <- p[1]
   b <- p[2]
   alpha <- p[3]
   beta <- p[4]
  -sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}

m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value

1
REMLとAICについては、この質問をご覧ください。
エルビス

回答:


13

非常に短い答え:REMLはMLなので、とにかくREMLに基づくテストは正しいです。REMLを使用した分散パラメーターの推定が優れているため、それを使用するのが自然です。

REMLがMLなのはなぜですか?たとえば、モデル と、考えます 、およびは固定効果のベクトル、はランダム効果のベクトル、。制限付き尤度は、固定効果を「除去」するためにコントラストを考慮することにより取得できます。より正確に言うと、、および(つまり、列X R N × P Z R N × Q β R P U N0 τ IとQ

Y=Xβ+Zu+e
XRn×pZRn×qβRpuN(0,τIq)N - P C R N - 、P × N C XeN(0,σ2In)npCR(np)×nCX=0CC=InpCの列によって生成された空間に直交するベクトル空間の正規直交基底です。そして、 with、およびが与えられた場合の尤度は制限尤度です。X
CY=CZu+ϵ
ϵN(0,σ2Inp)τ,σ2CY

いい答え(+1)、行列は平均のモデルに依存していると言ってもいいですか?したがって、同じマトリックスのREML推定値のみを比較できますか?CC

はい、は依存します(答えをすぐに編集して明確にします)。そのため、ネストされたモデルには、固定効果を持つ同じ変数が必要です。CX
エルビス

REMLはありません ML!ML一意所定の確率モデルのために定義されているが、REMLは固定効果のパラメータに依存します。たとえば、Doug Batesによるこのコメント(およびR-SIG混合モデルに関する多くの歴史的なコメント)を参照してください。
リビウス

1
@Livius私の答えは、制限された尤度がどのように構築されるかを十分に明確に述べていると思います。これ尤度です。最初に表示された方程式で記述されたモデルで観測されたを与えられた尤度ではなく、2番目に表示された方程式で記述されたモデルで投影ベクトル与えられました。REML 、この可能性から得られたMLです。C YYCY
エルビス

2
これは、DBatesのこの問題に対する抗議の要点だと思います。これは異なるモデルであり、モデルとパラメーター化が絡み合っているため比較が難しいモデルです。したがって、元のモデル MLではなく元のモデルの特定のパラメーター化から生じる別のモデル MLを計算ています。したがって、ネストされた固定効果構造を持つREML適合モデルは、ネストされたモデルではなくなりました(上記のとおり)。ただし、指定されたモデルの尤度を最大化するため、ML適合モデルは依然としてネストされています。
リビウス

9

尤度比検定は、2つの尤度の比に基づく統計的仮説検定です。それらのプロパティは最尤推定(MLE)にリンクされています。(たとえば、素人用語での最尤推定(MLE)を参照)。

あなたのケースでは、あなたが「あなたはVAR-コバールがあるモデルの間で選択したいとしましょう、2つの入れ子VAR-コバールモデル間」「を選択」したい(質問を参照)とVAR-コバールがあるモデル番目のモデル(単純なモデル)は最初のモデル(一般的なモデル)の特殊なケースです。 Σ SΣgΣs

このテストは、尤度比。およびは最尤推定量です。Σ S Σ GLR=2(log(Ls(Σ^s))log(Lg(Σ^g))Σ^sΣ^g

統計は、漸近的に(!)です。 χ 2LR χ2

最尤推定量は一貫していることが知られていますが、多くの場合、偏っています。これは、分散のMLE推定量および場合であり、それらが偏っていることを示すことができます。これは、データから導出された平均を使用して計算されるため、この「推定平均」の周りの広がりが真の平均の周りの広がりよりも小さいためです(たとえば、標準偏差を計算するときにで割る直感的な説明を参照してください) Σ gのN-1Σ^sΣ^gn1

上記の統計は、大きなサンプルではです。これは、大きなサンプルでは、およびが真の値に収束するためです(MLEは一貫しています) )。(注:上記のリンクでは、非常に大きなサンプルの場合、nまたは(n-1)で除算しても違いはありません)χ 2 Σ S Σ GLRχ2Σ^sΣ^g

小さいサンプルについて、MLEは、の推定値とバイアスされ、従って分布あろうずれから REML推定値がのために、公正な推定値を与えるが、および。したがって、var-covarモデルの選択にを使用する場合、は、より小さいサンプルの場合、により近似されます。Σ^sΣ^gLRχ2ΣsΣgLRχ2

REMLは、同じ平均を持つモデルのネストされたvar-covar構造から選択するためにのみ使用する必要があることに注意してください。異なる平均を持つモデルでは、MLを使用する異なる平均を持つモデルにはREMLは適切ではありません。


「統計LRは、漸近的に(!)χ2」というステートメントは、この場合は当てはまりません。場合ためです中にネストされている、その後、の境界上にある。この場合、分布は成り立ちません。たとえば、こちらをご覧くださいΣsΣgΣsΣgχ2
クリフAB

@Cliff AB、これはそのステートメントの下で説明されているものであり、それがREMLを使用しなければならない理由です。

-4

統計よりも常識に関係のある答えがあります。SASでPROC MIXEDを見ると、6つの方法で推定を実行できます。

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_mixed_sect008.htm

ただし、REMLがデフォルトです。どうして?どうやら、実際の経験では、最高のパフォーマンス(たとえば、収束の問題が発生する可能性が最も低い)が示されました。したがって、REMLで目標を達成できる場合は、他の5つの方法とは対照的にREMLを使用するのが理にかなっています。


2
「大標本理論」とMLE推定値の偏りに関係しているので、私の答えをご覧ください。

1
「SASのデフォルトです」は、このサイトの「なぜ」質問に対する受け入れられる回答ではありません。
ポール

SASによってデフォルトで提供される混合モデルのp値は、信頼できないため(Rのlme4ライブラリでは設計上利用できません(stat.ethz.ch/pipermail/r-help/2006-May/094765.html))。そのため、「デフォルトSAS」はさらに間違っている可能性があります。
ティム
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.