次の場合、線形回帰は結果にとって正しい選択ではありません。
- 結果変数は正規分布ではありません
- 結果変数は、それがとることができる値に制限されています(カウントデータは、予測値が負になることはないことを意味します)
- 訪問数が0のケースの頻度が高いと思われるもの
カウントデータの限定従属変数モデル
選択できる推定戦略は、結果変数の「構造」によって決まります。つまり、結果変数の値が制限されている場合(つまり、従属変数が制限されている場合)、予測値が結果の可能な範囲内に収まるモデルを選択する必要があります。線形回帰は、限られた従属変数(たとえば、バイナリロジット/プロビットの場合)の良い近似である場合がありますが、そうでない場合もあります。一般化線形モデルを入力します。あなたの場合、結果変数はカウントデータであるため、いくつかの選択肢があります。
- ポアソンモデル
- 負の二項モデル
- ゼロ膨張ポアソン(ZIP)モデル
- ゼロ膨張負二項(ZINB)モデル
選択は通常、経験的に決定されます。以下で、これらのオプションの選択について簡単に説明します。
ポアソン対負の二項
θH0:θ=0H1:θ≠0θ
ZIP対ZINB
潜在的な複雑化の1つはゼロインフレであり、これはここで問題になる可能性があります。ここで、ゼロインフレートモデルのZIPおよびZINBが登場します。これらのモデルを使用して、ゼロ値を生成するプロセスが、他のゼロ以外の値を生成するプロセスとは異なると想定します。以前と同様に、ZINBは結果に過剰なゼロがあり、分散が過剰な場合に適切ですが、ZIPは結果に過剰なゼロがあるが条件付き平均=条件付き分散である場合に適切です。ゼロインフレモデルの場合、上記のモデル共変量に加えて、結果で見られた過剰なゼロを生成した可能性のある変数について考える必要があります。繰り返しますが、これらのモデルの出力に付属する統計テストがあります(コマンドを実行するときに、これらを指定する必要がある場合があります)。θ
θH0:θ=0H1:θ≠0H0:Excess zeroes is not a result of a separate processH1:Excess zeroes is a result of a separate process
θθ
最後に、私はRを使用していませんが、UCLAのデータ分析の例のページにあるIDREは、これらのモデルをフィッティングするのに役立ちます。
[コメントする十分な評判のない別のユーザーによる編集:このペーパーでは、Vuongテストを使用してゼロインフレモデルを比較するべきではない理由を説明し、代替案を提供します。
P.ウィルソン、「ゼロインフレをテストするためのネストされていないモデルのVuongテストの誤用」経済学の手紙、2015、vol。127、発行C、51-53 ]