カウントデータで使用するのに最も適切な回帰モデルはどれですか。


10

私は統計に少し入り込もうとしていますが、何かに行き詰まっています。私のデータは次のとおりです。

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

ここで、データに基づいて任意の年の遺伝子数を予測できる回帰モデルを構築したいと思います。これまでは線形回帰を使用して行いましたが、ある程度の読み取りを行ったため、この種のデータには最適ではないようです。私はポアソン回帰が役に立つかもしれないことを読みましたが、何を使うべきかわかりません。だから私の質問は:

この種のデータの一般的な回帰モデルはありますか?いいえの場合、どの方法を使用するのが最も適切かを見つけるために何をしなければなりませんか(データについて何を調べなければならないかという点で)?


ここに私の答え: stats.stackexchange.com/questions/142338/… は非常に関連があります。
kjetil b halvorsen

2
これは時系列データについてですか?
マイケルM

回答:


22

いいえ、一般的なカウントデータ回帰モデルはありません。

(連続データには一般的な回帰モデルがないので、正規分布のホモスケダスティックノイズのある線形モデルが最も一般的に想定され、通常の最小二乗法を使用して近似されます。ただし、ガンマ回帰または指数回帰は、さまざまなエラー分布の想定に対処するためによく使用されます、または時系列のコンテキストでのARCHやGARCHなどの条件付き不均一分散モデルを使用して、不均一分散ノイズを処理します。

一般的なモデルには、作成したまたは負の二項回帰が含まれます。これらのモデルは、あらゆる種類のソフトウェア、チュートリアル、または教科書を見つけるのに十分普及しています。特にヒルベの負の二項回帰が好きです。この以前の質問では、異なるカウントデータモデルから選択する方法について説明します。

データに「多数」のゼロがある場合、特にゼロが非ゼロとは異なるデータ生成プロセスによって駆動される可能性があると疑われる場合(または、一部のゼロが1つのDGPから発生し、他のゼロと非ゼロが発生する場合)別のDGPから)、モデルが役立つ場合があります。最も一般的なものは、ゼロ膨張ポアソン(ZIP)回帰です。

また、「regression」と「count-data」の両方でタグ付けされた以前の質問をざっと読むこともできます。


編集:@MichaelMは良い点を上げます。これ、カウントデータの時系列のように見えます。(そして、1992年と1994年の欠落データは、これらの年のそれぞれにゼロがあるべきだと私に示唆しています。もしそうなら、それを含めてください。ゼロは有効な数値であり、情報を運びます。)これに照らして、私は「time-series」と「count-data」の両方をタグ付けした以前の質問を確認することもお勧めします


4
良いですが、通常の最小二乗はモデルではなく推定手順です。あなたはそれを知っていますが、それはよくある混乱なので、私たちはそれを甘やかすことを書くべきではありません。
Nick Cox

@NickCox:良い点。投稿を編集しました。
Stephan Kolassa

11

カウントデータの最も一般的に使用され説明されている「デフォルト」の分布は、ポアソン分布です。ほとんどの場合、最初の実用的な使用例を使用して説明されています。

この分布の実用的な応用は、1898年にラディスラウスボルトキエヴィチによって、プロキスタン軍の馬の蹴りで偶然殺された兵士の数を調査する任務を与えられたときに行われました。この実験では、ポアソン分布を信頼性工学の分野に導入しました。

λλ

E(Y|X,β)=λ=exp(β0+β1X1++βkXk)

λ

実生活データにポアソン分布を使用する場合の問題は、平均が分散に等しいと仮定していることです。この仮定の違反は、過剰分散と呼ばれます。そのような場合は、常に準ポアソンモデル、非ポアソン対数線形モデル(多カウントの場合、ポアソンは正規分布で近似できます)、負の二項回帰(ポアソンに密接に関連しています。バークとマクドナルド、2008を参照)、またはStephan Kolassaによって説明されている他のモデル。

ポアソン回帰のわかりやすい紹介については、Lavery(2010)、またはCoxe、West and Aiken(2009)の論文を確認することもできます。


Lavery、R。(2010)。アニメーションガイド:ポアソン回帰の紹介。NESUGペーパー、sa04。

Coxe、S.、West、SG、&Aiken、LS(2009)。カウントデータの分析:ポアソン回帰とその代替の穏やかな紹介。性格評価のジャーナル、91(2)、121-136。

バーク、R、およびマクドナルド、JM(2008)。過剰分散とポアソン回帰。Journal of Quantitative Criminology、24(3)、269-284。


2
ポアソン分布のあてはめをポアソン回帰を使用して適合させます。応答がポアソン分布を持つことは、ポアソン回帰の絶対的な要件ではありません。ポアソン回帰は、測定変数も含めて、さまざまな正の応答に対してうまく機能します。推論のために標準エラーに注意することは良い考えですが、それは扱いやすいです。たとえばblog.stata.com/2011/08/22/…を
Nick Cox

@NickCox正解ですが、問題は厳密にカウントデータに関するものでした。そのため、ポアソン回帰の他の使用法について詳しく説明する必要はおそらくないでしょう。
Tim

3
詳細に入る必要はない、合意された。しかし、ポアソン回帰を少し推し進めるあらゆる理由。その実用性は驚くほどほとんど知られていません。それは、少なくとももっと多くの中間テキストに値するに値します。また、ここでさらに重要なのは、分散が等しくない場合に他のモデルを使用する必要があることにはまったく同意しません。これは2つのまったく異なる問題を混乱させます。
Nick Cox

さらに、ポアソン回帰が測定された変数で使用できるという事実は、平均が分散と等しいかどうかが、それらが異なる次元を持っているので意味がない場合のように、適切です。したがって、このような場合は、要件がそのようなものではないことを強調しています。
Nick Cox

3
exp(Xb)

0

ポアソンまたは負の二項式は、カウントデータに広く使用されている2つのモデルです。分散に関するより良い仮定があるので、私は負の二項式を選びます。


3
「より良い」とはどういう意味ですか?
Tim

2
現状では、これは回答というよりコメントです。あなたはそれを拡張できると思いますか?ティムのコメントについては確かに考える必要があります。「より良い」という言葉は非常にあいまいです
Silverfish

負の二項(NB)モデルは、クラスター化が原因であると想定して、過剰分散(OD)カウントデータを処理します。次に、Poisson分布の「within」とガンマ分布の「between」構造を持つランダムインターセプトモデルを使用します。どちらが優れているかは、ODの仮定によって異なります。ODの程度がクラスターサイズによって異なると想定する場合は、NBが役立ちます。ODがクラスターサイズに比例すると仮定すると、準ポアソンはこの仮定を持ちます。ODが単なるガウスノイズの場合、NBの推定値にはバイアスがかかります。ポアソンのバイアスは少なくなりますが、ODでは標準誤差が小さすぎる可能性があります。
Mainard、2018年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.