ポアソン回帰対ログカウント最小二乗回帰?


21

ポアソン回帰は、ログリンク機能を備えたGLMです。

非正規分布のカウントデータをモデル化する別の方法は、ログ(または、log(1 + count)を処理して0を処理する)を使用して前処理することです。対数応答で最小二乗回帰を行う場合、ポアソン回帰に関連していますか?同様の現象を処理できますか?


6
ゼロのカウントの対数を取るにはどのように計画しますか?
whuber

3
間違いなく同等ではありません。これを確認する簡単な方法は、カウントがゼロの場合に何が起こるかを調べることです。(@whuberのコメントを見る前に作成されたコメント。どうやらこのページはブラウザ上で適切に更新されなかったようです。)
枢機

OK、明らかに言うべきです、log(1 + count)。明らかに同等ではありませんが、関係があったのか、それとも類似の現象を処理できるのか疑問に思います。
ブレンダンオコナー

1
この問題の有益な議論がここにあります:blog.stata.com/2011/08/22/...
マイケル・ビショップ

回答:


22

一方、ポアソン回帰では、モデル方程式の左辺は予想されるカウントの対数です:。log(E[Y|x])

一方、「標準」線形モデルでは、左側は通常の応答変数の期待値:です。特に、リンク関数は恒等関数です。E[Y|x]

ここで、がポアソン変数であり、ログを取得して正規化するつもりだとしましょう:。ので通常のことになっているあなたは、左側があるため、標準的な線形モデルにフィットすることを計画。しかし、一般的に、。結果として、これら2つのモデリングアプローチは異なります。Y = log Y Y E [ Y | x ] = E [ log Y | x ] E [ log Y | x ] log E [ Y | x ] YY=log(Y)YE[Y|x]=E[log(Y)|x]E[log(Y)|x]log(E[Y|x])


6
実際、ない限り、いくつかのための -measurable関数、すなわち、完全によって決定される。PY = F X | X = 1 σ X F Y XE(log(Y)|X)log(E(Y|X)) P(Y=f(X)|X)=1σ(X)fYX
枢機

@枢機卿。とてもいい。
suncoolsu

9

2つの重要な違いがあります。

最初に、予測値(元のスケール)は異なる動作をします。対数線形最小二乗法では、条件付き幾何平均を表します。対数ポアソンモデルでは、条件付き平均を表します。このタイプの分析のデータは多くの場合右に歪んでいるため、条件付き幾何平均は条件平均を過小評価します。

2番目の違いは、暗黙の分布、対数正規対ポアソンです。これは、残差の不均一分散性構造に関係します。つまり、期待値の2乗に比例する残差(lognormal)と期待値に比例する残差(Poisson)です。


-1

明らかな違いの1つは、ポアソン回帰ではポイント予測として整数が生成されるのに対し、ログカウント線形回帰では非整数が生成されることです。


12
それはどのように機能しますか?GLM は、必ずしも不可欠ではない期待値を推定しませんか?
whuber

1
これは真実ではありません。機械的に、ポアソン回帰は非整数を完全に処理できます。標準エラーはポアソン分散されませんが、代わりに堅牢な標準エラーを使用できます。
マシュー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.