カウントデータにポアソンvs幾何vs負の二項GLMを使用する場合


21

GLMフレームワーク内で、どの回帰タイプ(幾何、ポアソン、負の二項)をカウントデータと共に使用するのが適切な場合、自分でレイアウトしようとしています(8つのGLM分布のうち3つだけがカウントデータに使用されますが、負の二項分布とポアソン分布を中心に読みました)。

カウントデータにポアソンvs幾何vs負の二項GLMを使用する場合


これまでのところ、次のロジックがあります:データをカウントしますか?はいの場合、平均と分散は等しくありませんか?はいの場合、負の二項回帰。いいえの場合、ポアソン回帰。ゼロインフレはありますか?はいの場合、ゼロ膨張ポアソンまたはゼロ膨張負の二項。

質問1いつ使用するかについて明確な指示がないようです。その決定を知らせる何かがありますか?私が理解していることから、ZIPに切り替えると、平均分散が等しいという仮定が緩和されるため、再びNBとかなり似たものになります。

質問2幾何学ファミリをこれに当てはめる場所、または回帰で幾何学ファミリを使用するかどうかを決定する際に、どのような種類の質問をデータに求めるべきですか?

質問3負の二項分布とポアソン分布を常に交換しているが、幾何学的ではない人がいるので、いつ使用するかについて明確に異なるものがあると推測しています。もしそうなら、それは何ですか?

PS 議論のために人々がそれをコメント/微調整したい場合、私は現在の理解の図(編集可能)を(おそらくは簡略化して)作成しました。 カウントデータ:GLMディシジョンツリー


唯一のRプログラミングに精通しているが、このヘルプを願っています... I stats.stackexchange.com/questions/60643/...
RYO ENGリアン胡

@RYOENG、私はそれを見て、ロジックツリーと私の質問で説明された違いをレイアウトしました。あまり議論されていない距離、つまり幾何学的距離に
timothy.s.lau

(更新)@Nick Coxの回答はこちら:stats.stackexchange.com/questions/67547/when-to-use-gamma-glmsは、これまで見てきた感情を要約しているようです。いつでも最適に機能するという空虚な答えを超えて使用する」
-timothy.s.lau

@Glen_b良いキャッチ、私はロジックを更新しました。
timothy.s.lau

あなたはおそらく、MODにうんざりすることについてのパラグラフを削除しても安全でしょう。
Glen_b -Reinstateモニカ

回答:


12

ポアソン分布と幾何分布の両方は、負の二項分布(NB)分布の特殊なケースです。一般的な表記法の1つは、NBの分散がであるということです。ここで、は期待値であり、が(過剰)分散の量に関与します。時々も使用されます。ポアソンモデルには、つまり等分散があり、幾何学にはます。 μ θ α = 1 / θ θ = θ = 1μ+1/θμ2μθα=1/θθ=θ=1

したがって、これら3つのモデルの間に疑問がある場合は、NBを推定することをお勧めします。最悪の場合、1つのパラメーターを推定しすぎると、少し効率が低下します。しかし、もちろん、特定の値(たとえば1または)で十分かどうかを評価するための正式なテストもあります。または、情報基準などを使用できます。θ

もちろん、他の単一または複数パラメーターのカウントデータ分布(前述の複合ポアソンを含む)の負荷もあります。

超過ゼロに関して:2つの標準的な戦略は、ゼロインフレカウントデータ分布、またはゼロ以上のバイナリモデルとゼロ切り捨てカウントデータモデルで構成されるハードルモデルのいずれかを使用することです。あなたが言及したように、過剰ゼロと過剰分散は混同されるかもしれませんが、過剰ゼロのモデルを調整した後でも、しばしばかなりの過剰分散が残っています。繰り返しますが、疑わしい場合は、上記と同じロジックでNBベースのゼロインフレまたはハードルモデルを使用することをお勧めします。

免責事項:これは非常に簡潔で簡単な概要です。実際にモデルを適用するときは、トピックに関する教科書を参照することをお勧めします。個人的には、WinkelmannのカウントデータブックとCameron&Trivediのカウントデータブックが好きです。しかし、他にも良いものがあります。Rベースのディスカッションについては、JSSの論文(http://www.jstatsoft.org/v27/i08/)もお勧めです。


4
μ+μ2>μ

3
μ

3
あなたが私の以前のコメントから伝えることができたかもしれないように:私はそのような過度に単純化したフローチャートのファンではありません。優れたモデルを選択するには、モデル間の接続と実際のアプリケーションとの関係を理解する必要があります。幾何学に興味があるかどうかは、アプリケーションのケースによって異なります。同様に、ゼロインフレとハードルの場合(チャートから省略しています)。最後に、質問の順序は必ずしもすべてのアプリケーションなどで同じではありません。
AchimZeileis

2
私のスケッチは少し単純化しすぎているように見えます。しかし、理系の学生にとっては、かなり単純なスキーマから始めることは珍しくありません。物理学のクラスを受講した場合、以前に学んだ「ルール」を変更し、それを破る頻度に精通しています。専門家と微妙な理解。だから、私は大学院生であるため、私は単にハードルなど、後で構築できる基本についての「より正確な」理解を得ようとしていました。参考文献のおかげで、BTW、教科書を調査しますあなたはあなたの論文と同様に言及しました。
timothy.s.lau

1
ログμ=バツβ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.