IDリンクを使用したOLSとPoisson GLM


11

私の質問は、ポアソン回帰とGLMの一般的な理解が不十分であることを示しています。ここに私の質問を説明するためのいくつかの偽のデータがあります:

### some fake data
x=c(1:14)
y=c(0,  1,  2,  3,  1,  4,  9, 18, 23, 31, 20, 25, 37, 45)

擬似R2を返すカスタム関数:

### functions of pseudo-R2

psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)}

predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)}

4つのモデルに適合:OLS、アイデンティティリンク付きガウスGLM、ログリンク付きポアソンGLM、アイデンティティリンク付きポアソンGLM

#### OLS MODEL
mdl.ols=lm(y~x)
summary(mdl.ols)
pred.ols = predict(mdl.ols)

summary(mdl.ols)$r.squared
predR2(y, pred.ols)

#### GLM MODEL, family=gaussian(link="identity")
mdl.guass <- glm(y~x, family=gaussian(link="identity"), maxit=500)
summary(mdl.guass)
pred.guass = predict(mdl.guass)

psuR2(mdl.guass$null.deviance, mdl.guass$deviance)
predR2(y, pred.guass)

#### GLM MODEL, family=possion (canonical link)
mdl.poi_log <- glm(y~x, family=poisson(link="log"), maxit=500)
summary(mdl.poi_log)
pred.poi_log= exp(predict(mdl.poi_log))  #transform

psuR2(mdl.poi_log$null.deviance, mdl.poi_log$deviance)
predR2(y, pred.poi_log)

#### GLM MODEL, family=poisson((link="identity")
mdl.poi_id <- glm(y~x, family=poisson(link="identity"), start=c(0.5,0.5), maxit=500)
summary(mdl.poi_id)
pred.poi_id = predict(mdl.poi_id)

psuR2(mdl.poi_id$null.deviance, mdl.poi_id$deviance)
predR2(y, pred.poi_id)

最後に予測をプロットします。

#### Plot the Fit
plot(x, y) 
lines(x, pred.ols)
lines(x, pred.guass, col="green")
lines(x,pred.poi_log, col="red")
lines(x,pred.poi_id, col="blue")

2つの質問があります。

  1. OLSとアイデンティティリンク付きのガウスGLMから得られる係数と予測はまったく同じであるようです。これは常に本当ですか?

  2. OLSの見積もりと予測が、アイデンティティリンクを備えたポアソンGLMとは大きく異なることに非常に驚いています。どちらの方法もE(Y | X)を推定しようとすると思いました。ポアソンのIDリンクを使用すると、尤度関数はどのように見えますか?



1
最小二乗を行ってポアソンモデルをアイデンティティリンクで近似したい場合は、加重最小二乗モデルmdl.wols = lm(y〜x、weights = 1 / log(y + 1.00000000001))を当てはめることもできます。 (y + 1.00000000001)は、分散の最初の推定値(sqrt(y + 1E-10))としても機能します。このようなモデルの推定値は、アイデンティティリンクを備えたポアソンGLMの推定値に非常に近くなります...
トムウェンセリアーズ2018

回答:


14
  1. はい、同じです。ガウスのMLEは最小二乗であるため、IDリンクを使用してガウスGLMを実行すると、OLSを実行します。

  2. a)「私は両方の方法がE(Y | X)を推定しようとすると思った

    実際、そうですが、条件付き期待がデータの関数として推定される方法は同じではありません。分布(したがって、データがどのように尤度を入力するか)を無視して、GLMを平均と分散の観点から(まるでそれが単なる重み付き回帰であるかのように)考えたとしても、ポアソンの分散は平均とともに増加します。観測値の相対的な重みは異なります。

    b)「ポアソンのIDリンクを使用すると、尤度関数はどのように見えますか?

    L(β0,β1)=ieλiλiyi/yi!

    =exp(iλi+yilog(λi)log(yi!)) whereλi=β0+β1xi

    =exp(i(β0+β1xi)+yilog(β0+β1xi)log(yi!))


4
Glen_bの2番目のポイントの詳細。私が自分自身に話した1つの話は、明確にわかったと思いますが、ポアソンモデルで推定された条件付き平均が大きくなると、モデルは条件付き平均から離れたデータ値に対してより寛容になります。これを、条件付き平均がどのように推定されているかに関係なく、一様に許容される直線の線形モデルと比較してください。
Matthew Drury

@Glen_b、あなたが言ったことを明確にするようにお願いできますか:「データがどのように可能性に入るのか」。MLEを使用して近似した場合、モデルの近似の可能性はOLSとPOisson(リンク=同一性)で異なるということですか?つまり、MLEを使用してOLSを近似する場合、正規分布の尤度関数を使用して、近似の尤度を計算しますか?後者の場合のポアソン分布からの尤度関数を計算しますか?
Alex

1
@アレックス右; OLSはガウスでのMLであり、ガウスの可能性はポアソンの可能性ではありません
Glen_b -Monicaを2016
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.