過分散を伴うポアソン分布のモデリング


15

ポアソン分布に従うと思われるデータセットがありますが、それは約3倍過剰に分散しています。現時点では、Rの次のコードのようなものを使用して、この過分散をモデリングしています。

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

視覚的には、これは私の経験データに非常によく当てはまるようです。フィットに満足している場合、ここで説明するように、負の二項分布を使用するなど、もっと複雑なことをする必要がある理由はありますか?(もしそうなら、そうすることへのポインターかリンクは大いに感謝されるでしょう)。

ああ、私はこれがわずかにギザギザの分布を作成することを知っています(3の乗算のため)が、それは私のアプリケーションにとっては問題ではありません。


更新: この質問を検索して見つける他の人のために、負の二項分布を使用して過分散ポアソンをモデル化する単純なR関数を次に示します。dを目的の平均/分散比に設定します。

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(Rメーリングリスト経由:https : //stat.ethz.ch/pipermail/r-help/2002-June/022425.html

回答:


11

過剰分散ポアソンの場合は、負の二項を使用します。これにより、分散を平均の関数として正確にパラメーター化できます。Rのrnbinom()など。


1
なぜ観測レベルのランダム効果を持つ混合モデルではなく、負の二項分布なのか?これは修辞的な質問ではありません。これは「どちらを好むべきかわからない」です。質問。さらに、反復測定の状況がある場合はどうなりますか?データが連続している場合、一般化線形混合モデルを使用します。ガンマ分布は多くの場合、連続した生物学的データでうまく機能し、混合モデルは反復測定要素を処理します。しかし、反復測定カウントデータが過剰に分散している場合はどうしますか?
ブライアン

再パラメータ化された負の二項モデルが過分散ポアソンデータで人気がある理由の1つは、分散を平均の関数としてモデル化する(ポアソンと同じ)ために、「余分な」分散をモデル化する過分散パラメータを使用することです。迅速な式はこちらのページ487を参照してください:worldscientific.com/doi/pdf/10.1142/9789813235533_0044 再パラメータの説明のためとウィキペディアのページ:en.wikipedia.org/wiki/Negative_binomial_distribution
サミルラシッドZaimの

4

ポアソンの平均値が1500の場合、正規分布に非常に近くなっています。それを近似として使用してから、平均と分散を別々にモデリングしてみてください。


これはほんの一例です-200のオーダーのはるかに小さい中央値を持つ場合があります(データの分割方法によって異なります)。それは正規分布を使用することを妨げるでしょう?
chrisamiller

1
ポアソン分布の正規近似はかなりロバストであり、CDF間の差は、正しく思い出せば0.75 / sqrt(lambda)のようなものに制限されます。lambda = 200を使用することについてあまり心配することはありませんが、よりリスクを嫌う場合は、必ず負の二項式を使用してください。
リッチ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.