カウントデータと過剰分散を伴う回帰におけるポアソンまたは準ポアソン？

カウントデータがあります（多くの要因に応じて、場合によっては顧客の数をカウントするデマンド/オファー分析）。通常のエラーで線形回帰を試みましたが、QQプロットはあまり良くありません。答えのログ変換を試みました：もう一度、悪いQQプロット。

だから今、私はポアソンエラーで回帰を試みています。すべての重要な変数を含むモデルでは、次のようになります。

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

残留偏差は、残留自由度よりも大きくなります。過剰分散があります。

準ポアソンを使用する必要があるかどうかを知るにはどうすればよいですか？この場合の準ポアソンの目標は何ですか？クローリーによる「The R Book」でこのアドバイスを読みましたが、私の場合、その点や大きな改善は見当たりません。

— アントニン
ソース

回答:

どの種類のglm方程式を推定したいかを決定しようとするとき、右辺（rhs）変数を与えられたターゲット変数の期待値とrhs変数を与えられたターゲット変数の分散との間のもっともらしい関係について考えるべきです。これには、Normalモデルの残差と近似値のプロットが役立ちます。ポアソン回帰では、想定される関係は、分散が期待値に等しいことです。どちらかと言えば制限的で、同意するでしょう。「標準」線形回帰では、期待値に関係なく分散が一定であるという仮定があります。準ポアソン回帰では、分散は平均の線形関数であると想定されます。負の二項回帰の場合、二次関数。

ただし、これらの関係に限定されません。「ファミリ」（「準」以外）の仕様により、平均分散関係が決まります。R Bookはありませんが、家族関数とそれに対応する平均分散関係を示す表があると思います。「準」ファミリでは、いくつかの平均分散関係のいずれかを指定でき、独自の関係を作成することもできます。Rのドキュメントを参照してください。「準」モデルの平均分散関数にデフォルト以外の値を指定することで、はるかに良い近似を見つけることができる場合があります。

また、ターゲット変数の範囲にも注意を払う必要があります。あなたの場合、それは非負のカウントデータです。低い値のかなりの部分（0、1、2）がある場合、連続分布はおそらく適切ではありませんが、そうでない場合、離散分布を使用してもあまり価値がありません。ポアソン分布と正規分布を競合他社と見なすことはまれです。

— ボーマン
ソース

はい、あなたが正しい。ここでは、カウントデータがありますが、値は大きくなっています。連続分布を使用する必要があります。

— アントニン

あなたは正しい、これらのデータは多すぎる可能性があります。準ポアソンは改善策です：スケールパラメーターも推定し（分散も平均であるためポアソンモデルに固定されます）、より良い適合を提供します。ただし、その時点で実行していることは最尤ではなくなり、特定のモデルテストとインデックスは使用できません。良い議論はVenables and Ripley、Modern Applied Statistics with S （セクション7.5）にあります。

別の方法は、負の二項モデル、例えばglm.nb()package の関数を使用することMASSです。

— もも
ソース

しかし、この場合、準ポアソンを使用するように「強制」されますか？私は、より多くの変数が重要であるという意味で、非準ポアソンモデルの方が優れている（基本的なポアソンである）ためです。

— アントニン

それは意味がありませんか？データからの推定値を使用するのではなく、シグマが.00001であると仮定した回帰モデルを使用した場合（2.3の場合）、もちろん、物事はより重要になります。

— デイソン

アントニン：より多くの変数が重要だからといって、それが物事を「良く」するわけではない、と言いたい。これらは、Dasonが指摘したように、誤差の分散を過小評価すると、簡単に誤検知になる可能性があります。この場合、私は間違いなく準方法または負の二項式を使用しますが、あなたの論文を確認しない限り、何もする必要はありません;）

— モモ

ご回答ありがとうございます！準ポアソンモデルと負の二項モデルを比較する方法を知っていますか？ほとんどの本で、彼らはモデルを提示しますが、それらの間で選択する方法を説明しません。

— アントニン

出力から、53-17 = 16パラメーターを53 + 1 = 54データポイントにフィッティングしているようです。これは正しいですか？使用を含む、漸近近似に依存している任意の方法そうである場合glm()とglm.nb()ひどく較正推論を得やすくなります。精度が誇張されていることを期待するのは合理的です。このリグレッションを行う理由について詳しく知ることは有益です。代わりに、小さなサンプルの状況でパフォーマンスが向上する可能性のあるメソッドを使用できます。

— ゲスト