ポアソンGLMが非整数の数値を受け入れることはどのように可能ですか?


17

ポアソンGLMが整数以外の数値を受け入れるという事実に本当に驚かされます!見て:

データ(の内容data.txt):

1   2001    0.25  1
1   2002    0.5   1
1   2003    1     1
2   2001    0.25  1
2   2002    0.5   1
2   2003    1     1

Rスクリプト:

t        <- read.table("data.txt")
names(t) <- c('site', 'year', 'count', 'weight')
tm       <- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t, 
                family = "quasipoisson")  # also works with family="poisson"
years    <- 2001:2003
plot(years, exp(c(0, tail(coef(tm), length(years)-1))), type = "l")

結果として得られる年のインデックスは、「予想」通り、つまり1-2-4年単位2001-2003です。

しかし、ポアソンGLMが非整数の数値を取ることはどのように可能ですか?ポアソン分布は常に整数のみです!


2
正確に知りたいことを明確にできますか?フィッティングアルゴリズムは非整数をどのように処理しますか?または、Rが応答が整数かどうかをチェックしないのはなぜですか?または、非整数が指定されたときに結果に何か問題があるかどうか?
モモ

@Momo、はい、これらの質問はすべて面白いです!
好奇心が

2
それを反映するように質問を編集してください。この方法で良い答えを得る可能性が高くなります。
モモ

8
これは本当に重要なことではありませんが、同様に真実ですfamily="poisson"が、あなたの例はポアソンGLMではないことに注意してください、あなたはquasipoisson家族を使用しているので、とにかく平均と分散の関係にのみ依存するので、ケースでは、非整数の番号をとることについて驚きはないはずです。
アーロン-モニカの復活2013年

1
これがなぜ理にかなっているのかについての参考文献を以下に示します。
Dimitriy V. Masterov

回答:


17

もちろん、ポアソン分布が整数に対してのみ技術的に定義されていることは正しいです。ただし、統計モデリングは優れた近似の技術であり(「すべてのモデルが間違っている」)、整数でないデータをポアソンであるかのように扱うことが理にかなっている場合があります。

たとえば、同じカウントデータを記録するために2人のオブザーバーを送信した場合、2人のオブザーバーが常にカウントに同意するとは限らないことがあります-1つは何かが3回起こったと言う一方で、もう1つはそれが4回起こったと言うかもしれません。3から4を選択する代わりに、ポアソン係数をフィッティングするときに3.5を使用するオプションがあると便利です。

計算上、ポアソンの階乗は非整数を扱うのを困難に思えるかもしれませんが、階乗の継続的な一般化が存在します。さらに、式を単純化すると、ポアソンの最尤推定の実行には階乗関数も含まれません。


15

応答に対して、期待値の対数が予測子の線形結合であると仮定した場合 およびその分散は期待値に等しい その後、回帰係数の一貫した推定値は、ポアソンモデルのスコア方程式を解くことで取得できます。 もちろん、一貫性はテストや信頼区間の妥当性を意味するものではありません。尤度は指定されていません。yバツ

EY=expβTバツ
ヴァールY=EY
β
nバツyexpβTバツ=0

これは、私たちが学校で学んだモーメント法アプローチに続き、一般化された推定方程式のアプローチにつながります。

@Aaronは、実際にはコードに準ポアソン近似を使用していると指摘しました。つまり、分散は平均に比例します

ヴァールY=ϕEY

データから推定できる分散パラメータを使用します。係数の推定値は同じになりますが、標準誤差は大きくなります。これはより柔軟であり、したがってより一般的に有用なアプローチです。(パラメータの分散-共分散行列のサンドイッチ推定器は、これらの種類の状況で堅牢な標準誤差を与えるためにしばしば使用されることにも注意してください。)ϕ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.