ロジット変換線形回帰、ロジスティック回帰、およびロジスティック混合モデルの違いは何ですか?


10

私には10人の生徒がいて、それぞれが20の数学の問題を解こうとしているとします。問題は(longdataで)正解または不正解としてスコアリングされ、各学生のパフォーマンスは(subjdataで)精度測定によって要約できます。以下のモデル1、2、および4は異なる結果を生成するように見えますが、同じことを行っていると理解しています。なぜ結果が異なるのですか?(参考のためにモデル3を含めました。)

library(lme4)

set.seed(1)
nsubjs=10
nprobs=20
subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5))
longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ]
longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4)
subjdata$acc = by(longdata$correct,longdata$subj,mean)
model1 = lm(logit(acc)~iq,subjdata)
model2 = glm(acc~iq,subjdata,family=gaussian(link='logit'))
model3 = glm(acc~iq,subjdata,family=binomial(link='logit'))
model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

私もベータ回帰を試みましたが、エラーが発生しました... library(betareg) model5 = betareg(acc~scale(iq),subjdata)
user20061 2013年

library(car)ロジット機能のために必要です。
user20061 2013年

1
関連する質問に対する私の答えのうちの2つを読むのに役立つ場合があります。ロジットモデルとプロビットモデルの違い(リンク関数とGLiMについて一般的に説明しています-末尾のコメントは特に1と3に対応しています)、および一般化線形モデルの違い&一般化線形混合モデル(4が1と3とどのように異なるかを説明します)。
gung-モニカの回復

回答:


15

最初のモデルは応答を変換し、2番目のモデルは期待値を変換するため、モデル1と2は異なります。

logitYiN(μi,σ2)
μi=xiβ
Yi=logit1(xiβ+εi)
YiN(μi,σ2)
logitμi=xiβ
Yi=logit1(xiβ)+εi

したがって、分散構造は異なります。モデル2からのシミュレーションを想像してください。分散は期待値とは無関係です。&応答の期待値は0と1の間ですが、応答はすべてではありません。

モデル4のような一般化線形混合モデルは、ランダムな効果が含まれているため、再び異なりますここここを参照しください


ありがとうございました。これはモデル1とモデル2を非常に明確に区別します。モデル2は一部の精度スコア(期待値ではない)が[0,1]外であると予測するというあなたの推論は特に役立ちます(そして私の目的には失格とします) )。モデル1に対しても同様の直感を使用できると思います。可能な予測精度スコアの範囲は、[0,1]ではなく(0,1)になります。限られた数の質問で、モデルはいくつかの精度スコアを0または1と予測する必要があり、二項分布はそれを行うことができます。
user20061 2013年

2
あなたは通常、(自分の生データに対するロジットリンクを持つ二項GLMに合わせなければならない注意してくださいlongdata)ではなく、あなたのモデル3のように比率
Scortchi -復活モニカ

7

@Scortchiへの+1。非常に明確で簡潔な回答を提供してくれました。補足点をいくつか挙げたいと思います。まず、2番目のモデルでは、応答分布がガウス(別名、正規)であることを指定しています。各回答は正解または不正解として採点されるため、これは誤りでなければなりません。つまり、各回答はベルヌーイ裁判です。したがって、応答分布は二項です。このアイデアは、コードにも正確に反映されます。次に、応答分布を支配する確率は正規分布であるため、リンクはロジットではなくプロビットである必要があります。最後に、これが実際の状況である場合は、主題と質問の両方の変量効果を考慮する必要があります。これらはまったく同じである可能性が非常に低いためです。これらのデータを生成した方法、各人の唯一の関連する側面は彼らのIQです、明示的に説明しました。したがって、モデルのランダム効果によって説明する必要のあるものは何も残っていません。質問の難易度のランダムな変化はコードのデータ生成プロセスの一部ではないため、これは質問にも当てはまります。

ここでつまらないという意味ではありません。私はあなたの設定があなたの質問を容易にするように単に設計されていることを認識し、それはその目的を果たしました。@Scortchiは、最小限の手間で、非常に直接あなたの質問に対処することができました。ただし、これらのことを指摘します。これらは、対応する状況を理解するための追加の機会を提供し、コードがストーリーラインの一部に一致し他の一部に一致しないことに気付いていないためです。


私のコードについてそのような注意深い考えをありがとう。経験的データを扱う人物として、私が偽のデータを生成する専門知識がないことを誇りに思います。これは、あなたが特定した欠点に現れています。しかし、私の初心者レベルの理解は、それ自体を明らかにしているかもしれません。
user20061 2013年

おかげで、その追加情報は役に立ち、他の人(少なくとも私)が全体の状況を少しよく理解するのに役立ちました。GLMアプローチを理解するのは難しいです。
Christopher Poile 2013年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.