この場合、ポアソン回帰には線形回帰よりもどのような利点がありますか?


12

ある高校の生徒が獲得した賞の数を含むデータセットが与えられました。獲得した数の予測には、学生が登録されたプログラムのタイプと数学の最終試験のスコアが含まれます。

なぜこの例では線形回帰モデルが適さないのか、そしてなぜポアソン回帰を使用する方が良いのか、誰かが教えてくれるのではないかと思いました。ありがとう。

回答:


14

ポアソンと正規回帰の3つのポイント、すべてモデルの仕様に関するもの:

予測変数の変更の影響

数学テストのスコアのような継続的な予測子の場合、ポアソン回帰(通常のログリンクを使用)は、予測子の単位の変更がアワード数のパーセンテージの変更につながることを意味します。より多くの賞。これは、学生がすでに持っていると予測されている賞の数によって異なります。対照的に、通常の回帰では、固定された金額にさらに10ポイントが関連付けられます。たとえば、すべての状況でさらに3つのアワードが関連付けられます。それを作成するモデルを使用する前に、その仮定に満足する必要があります。(fwiw次の点を法として、非常に合理的だと思います。)

賞のない学生への対応

多くの学生に渡って本当に多くの賞がある場合を除いて、あなたの賞の数はほとんどかなり少ないでしょう。実際、私はゼロインフレを予測します。つまり、ほとんどの学生は賞を受けないので、たくさんのゼロがあり、一部の優秀な学生はかなりの数の賞を受けます。これはポアソンモデルの仮定に影響を与え、少なくとも通常モデルと同じくらい悪いです。

適切な量​​のデータがある場合は、「ゼロ膨張」または「ハードル」モデルが自然になります。これは2つのモデルを結び付けたものです。1つは学生が賞を獲得するかどうかを予測するモデルで、もう1つは賞を獲得した場合に獲得する数を予測するモデルです(通常は何らかの形のポアソンモデル)。すべてのアクションが最初のモデルにあると思います。

賞の独占権

最後に、賞についての小さなポイント。アワードが排他的である場合、つまり、1人の学生がアワードを取得した場合、他の学生はアワードを取得できません。結果は結合されます。学生の1つのカウントは、他のすべての可能なカウントを押し下げます。これが心配する価値があるかどうかは、賞の構成と学生の人数によって異なります。最初のパスでは無視します。

結論として、ポアソンは非常に大きなカウントを除いてノーマルを快適に支配しますが、ポアソンの仮定を確認してから推論に重点を置き、必要に応じて少し複雑なモデルクラスに移行する準備をします。


9

この場合は、応答が何かの数であるため、ポアソン回帰の方が適しています。

簡単に言えば、個々の学生のアワード数の分布はポアソン分布に由来し、各学生には独自の poissonパラメータがあることをモデル化します。次に、ポアソン回帰は、このパラメーターをカウントではなく説明変数に関連付けます。λ

これが通常の線形回帰よりも優れている理由は、エラーを処理するためです。モデルが正しく、各生徒が独自の持っている場合、特定のについて、その周りのカウントのポアソン分布、つまり非対称分布が予想されます。これは、異常に高い値が異常に低い値ほど驚くべきものではないことを意味します。λλ

通常の線形回帰は、平均の周りの通常の誤差を想定しているため、均等に重み付けされます。これは、学生が1つの賞の予想数を持っている場合、3つの賞を受け取るのと同じくらい、生徒が-2の賞を受け取る可能性が高いことを示しています。


8

予測子でのアワードの通常の最小二乗回帰は、アワードの条件付き平均が予測子で線形である限り、一貫したパラメーター推定を生成します。しかし、これは、予測の数のアワードが負になることを可能にするため(予測子の「妥当な」値であっても)、これは意味がありません。人々は多くの場合、自然な賞の記録を取り、OLSを使用してこれを改善しようとします。しかし、一部の学生は賞を受けないため、これは失敗します。そのため、ようなものを使用する必要があります。ln(awards+0.5)

また、予想されるアワード数が非常に多くなるため、@ Coroneで概説されている理由により、OLSのパフォーマンスが向上するはずです。で湖Wobegon、OLSは、移動するための方法です。

予想される数値が低く、多くのゼロがある場合、負の二項モデルに対してロバストな標準誤差を持つポアソンを使用します。NB回帰は、係数を生成する1次条件に現れる分散について強力な仮定を行います。これらの仮定が満たされない場合、係数自体が汚染される可能性があります。ポアソンの場合はそうではありません。


4

@coroneは良い点を上げますが、ポアソンはが小さい場合にのみ実際に非対称であることに注意してください。 = 10の場合でも、かなり対称です。λλ

set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)

歪度は0.31で、これはかなり0に近い値です。

@conjugatepriorのポイントも気に入っています。私の経験では、ポアソン回帰がうまく適合することはまれです。私は通常、負の二項モデルまたはゼロ膨張モデルのいずれかを使用して終了します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.