回答:
ポアソン分散データは本質的に整数値であり、カウントデータにとって意味があります。通常の最小二乗(OLS、「線形回帰」と呼びます)は、真の値が期待値の周囲に正規分布し、正または負、整数または分数などの実数値をとることを想定しています。最後に、ロジスティック回帰は、「病気にかかっている」対「病気にかかっていない」など、0〜1の値(TRUE-FALSE-valued)のデータに対してのみ機能します。したがって、ポアソン分布はカウントデータにとって最も意味があります。
そうは言っても、正規分布は多くの場合、平均が30を超えるデータのポアソン分布にかなり適しています。また、カウントに影響する予測子がある回帰フレームワークでは、ポアソン分布と回帰ではOLSの平均と分散が等しいと仮定されるため、正規分布のOLSの方が適合しやすく、実際により一般的です等しくない平均と分散を扱うことができます-異なる平均と分散を持つカウントデータモデルの場合、たとえば負の二項分布を使用できます。
本質的には、線形およびロジスティック回帰が、カウントの結果がどのように見えるかについて間違った種類の仮定を行うためです。あなたのモデルが非常に愚かなロボットであると想像してください。それは、それらの注文がどれほど無意味であっても、あなたの注文に執followに追従するでしょう。それはあなたがそれを伝えることを評価する能力を完全に欠いています。ロボットに投票のようなものが負の無限大から無限大に連続的に分布していると伝えると、それは投票がそうであると信じていることであり、無意味な予測を与える可能性があります(Ross Perotは次の選挙で-10.469票を受け取ります)。
逆に、ポアソン分布は離散的で正(またはゼロ...ゼロは正としてカウントされますか?)です。最低限、実際の生活で実際に起こりうる答えをロボットに強制的に与えるでしょう。彼らは良い答えかもしれないし、そうでないかもしれないが、彼らは少なくとも「投票数」の可能なセットから引き出されるだろう。
もちろん、ポアソンには独自の問題があります。投票数変数の平均もその分散と同じであると想定しています。これが真実であるところに、実際に非工夫の例を見たことがあるかどうかはわかりません。幸いなことに、明るい人々は、正で離散的な他の分布を考え出しましたが、それは分散を変化させるためのパラメーターを追加します(たとえば、負の二項回帰)。
他の人たちは基本的に私がやろうとしていることと同じことを言っているが、私はそれに自分の意見を追加すると思った。それはあなたが何をしているかに正確に依存しますが、多くの場合、手元の問題/データを概念化するのが好きです。これは、予測が非常に良好なモデルを構築するだけの場合とは少し異なるアプローチです。何が起こっているかを概念化しようとする場合、整数値のみに質量を置く非負の分布を使用してカウントデータをモデル化することは理にかなっています。私たちは、基本的に、一定の条件の下でデータを数えるが本当にいることを言ってまで煮詰める多くの結果もを持っているがポアソンとして配布されます。したがって、問題を概念化することが目標である場合、応答変数としてポアソンを使用することは本当に理にかなっています。他の人は、それが良いアイデアである他の理由を指摘しましたが、実際に問題を概念化し、表示されるデータの生成方法を本当に理解しようとしている場合、ポアソン回帰を使用することはいくつかの状況で非常に理にかなっています。
私の理解は主に、カウントは常に正で離散的であり、ポアソンはそのようなデータを1つのパラメーターで要約できるためです。主な問題は、分散が平均に等しいことです。