ポアソン回帰がカウントデータに使用されるのはなぜですか?


33

投票などの特定のデータセットでは、パフォーマンスが向上することを理解しています。通常の線形回帰またはロジスティック回帰よりもポアソン回帰が使用されるのはなぜですか?それの数学的な動機は何ですか?


:別の視点については、この記事に私の答えを参照してください stats.stackexchange.com/questions/142338/...
HalvorsenのはKjetil B

回答:


51

ポアソン分散データは本質的に整数値であり、カウントデータにとって意味があります。通常の最小二乗(OLS、「線形回帰」と呼びます)は、真の値が期待値の周囲に正規分布し、正または負、整数または分数などの実数値をとることを想定しています。最後に、ロジスティック回帰は、「病気にかかっている」対「病気にかかっていない」など、0〜1の値(TRUE-FALSE-valued)のデータに対してのみ機能します。したがって、ポアソン分布はカウントデータにとって最も意味があります。

そうは言っても、正規分布は多くの場合、平均が30を超えるデータのポアソン分布にかなり適しています。また、カウントに影響する予測子がある回帰フレームワークでは、ポアソン分布と回帰ではOLSの平均と分散が等しいと仮定されるため、正規分布のOLSの方が適合しやすく、実際により一般的です等しくない平均と分散を扱うことができます-異なる平均と分散を持つカウントデータモデルの場合、たとえば負の二項分布を使用できます。


17
あなたが正規分布asssumptionが必要であることをパラメータに推論を行うとき、それはだ-ちょうど使用してOLSをフィッティングすることは正規性を必要としないことに注意してください
Dason

1
@Dason:私は訂正しました。
S. Kolassa-モニカの復職

3
あなたは、分散のフーバー/ホワイト/サンドイッチ推定器を使用する場合は、平均分散の仮定を緩和することができる
Dimitriy V. Masterov

@Dason厳密に必須ではありませんが、適切なモデルの形式を使用すると、ほぼ常により良い推定値が得られ、残差のプロットで見ることができます。
ジョー14年

24

本質的には、線形およびロジスティック回帰が、カウントの結果がどのように見えるかについて間違った種類の仮定を行うためです。あなたのモデルが非常に愚かなロボットであると想像してください。それは、それらの注文がどれほど無意味であっても、あなたの注文に執followに追従するでしょう。それはあなたがそれを伝えることを評価する能力を完全に欠いています。ロボットに投票のようなものが負の無限大から無限大に連続的に分布していると伝えると、それは投票がそうであると信じていることであり、無意味な予測を与える可能性があります(Ross Perotは次の選挙で-10.469票を受け取ります)。

逆に、ポアソン分布は離散的で正(またはゼロ...ゼロは正としてカウントされますか?)です。最低限、実際の生活で実際に起こりうる答えをロボットに強制的に与えるでしょう。彼らは良い答えかもしれないし、そうでないかもしれないが、彼らは少なくとも「投票数」の可能なセットから引き出されるだろう。

もちろん、ポアソンには独自の問題があります。投票数変数の平均もその分散と同じであると想定しています。これが真実であるところに、実際に非工夫の例を見たことがあるかどうかはわかりません。幸いなことに、明るい人々は、正で離散的な他の分布を考え出しましたが、それは分散を変化させるためのパラメーターを追加します(たとえば、負の二項回帰)。


5

数学的には、定義された間隔発生するイベントの確率がであるという単純な仮定から始めると、間隔がで期待されるイベントの数を示すことができます。および確率分布T=1λT=tλtλt

pN=n=λtneλtn

これおよび最尤法と一般化線形モデル(または他の方法)を介して、ポアソン回帰に到達します。

簡単に言えば、ポアソン回帰は、モデル内の他の変数によって決定されるレート(つまり、単位時間あたりの数)で少数のイベントを生成する基になるランダムプロセスの仮定に適合するモデルです。


3

他の人たちは基本的に私がやろうとしていることと同じことを言っているが、私はそれに自分の意見を追加すると思った。それはあなたが何をしているかに正確に依存しますが、多くの場合、手元の問題/データを概念化するのが好きです。これは、予測が非常に良好なモデルを構築するだけの場合とは少し異なるアプローチです。何が起こっているかを概念化しようとする場合、整数値のみに質量を置く非負の分布を使用してカウントデータをモデル化することは理にかなっています。私たちは、基本的に、一定の条件の下でデータを数えるが本当にいることを言ってまで煮詰める多くの結果もを持っているがポアソンとして配布されます。したがって、問題を概念化することが目標である場合、応答変数としてポアソンを使用することは本当に理にかなっています。他の人は、それが良いアイデアである他の理由を指摘しましたが、実際に問題を概念化し、表示されるデータの生成方法を本当に理解しようとしている場合、ポアソン回帰を使用することはいくつかの状況で非常に理にかなっています。


2

私の理解は主に、カウントは常に正で離散的であり、ポアソンはそのようなデータを1つのパラメーターで要約できるためです。主な問題は、分散が平均に等しいことです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.