通常の最小二乗法がポアソン回帰よりも優れているのはなぜですか?


18

私は、都市の各地区における殺人の数を説明する回帰を当てはめようとしています。私のデータはポアソン分布に従うことがわかっていますが、次のようにOLSを近似しようとしました。

logy+1=α+βバツ+ϵ

次に、(もちろん!)ポアソン回帰も試しました。問題は、OLS回帰の結果が優れていることです。疑似は高く(0.71対0.57)、RMSEも同じです(3.8対8.88。同じ単位を持つように標準化されています)。R2

どうして?普通ですか?データの分布が何であれ、OLSを使用することの何が問題になっていますか?

編集 kjetil b halvorsenなどの提案に従って、OLSとNegative Binomial GLM(NB)の2つのモデルでデータを適合させました。私が持っているすべての機能から始め、重要ではない機能を1つずつ再帰的に削除しました。OLSは

crmearea=α+βバツ+ϵ

weights =。area

summary(w <- lm(sqrt(num/area) ~  RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))

error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area

rmse(error2)
[1] 80.64783

NBは、地区の面積をオフセットとして犯罪の数を予測します。

summary(m3 <- glm.nb(num ~  LUM5_single  + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places  + employed  + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))

error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")

rmse(error)
[1] 121.8714

OLS残差:

ここに画像の説明を入力してください

NB残差

ここに画像の説明を入力してください

そのため、OLEではRMSEは低くなりますが、残差はそれほど正常ではないようです。


詳細を投稿できますか?データの性質は何ですか?つまり、応答変数のカウントは何ですか?説明変数は何ですか?
kjetil bハルヴォルセン16年

@kjetilbhalvorsen従属変数は、地区(112地区)あたりの殺人数です。インディペンデントなものは、都市の構造的特徴(道路交差点、ランドマークなど)である
marcodena

2
ポアソン回帰を使用してこのモデルをフィッティングする場合、すべてがアメサイズではない地区を説明するオフセットとしてlog(districtsize)を含めます。そうでない限り。
mdewey

1
OLSをML推定(および)からのと比較すると、特定のモデルがどれほど優れているかを示すと考える背後にある根拠は何ですか?OLSは、構成上、最大化します。回帰は、を最大化するように構築されていますか?私はそうは思いませんし、この比較が役に立つとは思いません。 p s e u d o R 2 R M S E R 2 p s e u d o R 2R2pseあなたはdoR2RMSER2pseあなたはdoR2
coffeinjunky

1
追加する別のもの- OLSからはで説明される分散の%を語っているポアソン擬似のに対し、の分散の%の指示を与えるしようとしているであり説明した。これはまた、違いを説明する可能性があります z = log y + 1 R 2 yR2z=ログy+1R2y
確率

回答:


16

問題の一部は、パフォーマンスメトリックの選択にあると思われます。RMSEを使用してテストパフォーマンスを測定し、MSEを最小化するようにモデルをトレーニングすると、テスト基準に一致し、重要と見なされるものに関するヒントが得られます。ポアソン尤度を使用してテストセットの負の対数尤度を使用してテストのパフォーマンスを測定すると、ポアソンモデルがより適切に機能することがわかります(予想どおり)。これは、提起された他の問題と比較して小さな問題かもしれませんが、有用な健全性チェックになるかもしれません。


1
+1。OPの目標が予測である場合、実際には、代わりにOLSモデルを使用する理由があるかもしれません!それにもかかわらず、OLSから生じる古典的なエラーベースの推論は、GLMに適用できない/すべきではありません。スチューデント化された残差を調べることもできますし、モデルをAICと比較することをお勧めします。
AdamO

11

まず、このようなデータでは、過剰分散が予想されます(それが何かわからない場合は、https: //stats.stackexchange.com/search?q = what + is + overdispersion%3Fを参照してください)。

ログDistrictSizeNr。殺人地区サイズ

別の問題は、線形回帰で使用した変換です。カウントデータで使用される通常の分散安定化変換は、対数ではなく平方根です。

別の問題は、線形回帰で使用される変換の選択です。応答として使用する場合、加重線形回帰が必要になります。近似ような仮定、我々は したがって、重みとしてを使用した重み付き線形回帰を使用する必要があります。単純な分析では、近似として、応答としてまたは同じ重みが適切であることが示されています。Y Iポアソンλ X IE Y IY/バツYポアソンλバツ XI

EYバツλVYバツバツ1
バツ logYi/xi+1Y/バツログY/バツ+1
    EDIT

投稿での追加の分析については、異なる応答が使用されているため、2つのモデル間でrmseを直接比較できないことに注意してください!直接比較するには、予測値を元のスケールに逆変換する必要があります。その後、rmseを自分で計算して確認できます。ただし、逆変換の後に得られる予測は、非線形性のために偏ることがあります。そのため、逆変換された予測を多少調整することで、予測をより便利にすることができます。場合によっては、これは理論的に計算することもできますが、単にブートストラップを使用することもできます。


重み付きOLSの背後にある共振を実際には理解していませんでしたが、私はあなたが提案したようにモデルを適合させました。どう思いますか?
-marcodena

6

疑似は多くの選択肢があります。それらの多くは非常に欠陥があります。一般的に、OLSから生成されるが特定の疑似同等の値になる理由は通常ありません。むしろ、擬似は、通常、同じ分布族のモデルを比較するために使用されます。R 2 R 2 R 2R2R2R2R2


2

データが正規分布ではないことは事実ですが(これがポアソン回帰も実行した理由だと思われます)、データもポアソン分布ではない可能性があります。ポアソン分布は、平均と分散が同じであると仮定していますが、そうではない可能性があります(他の回答で述べたように、この不一致をキャプチャしてモデルに組み込むことができます)。データはどちらのモデルにも完全には適合しないため、OLSのパフォーマンスが向上することは理にかなっています。

もう1つ注意すべきことは、通常の最小二乗推定値は非正規性に対してロバストであるため、合理的なモデルが得られる理由です。ガウスマルコフの定理は、OLS係数の推定値が次の仮定の下で(平均二乗誤差に関して)最良の線形不偏推定量(BLUE)であることを示しています。

  • エラーの平均はゼロです
  • 観測は無相関です
  • エラーには一定の分散があります

ここには正規性の仮定はないため、データはこのモデルにとって非常に妥当です。そうは言っても、過分散パラメーターが焼き付けられたポアソンモデルを調べると、より良い結果が得られるはずです。


@TynnaDoStatありがとう!2つのモデルに適合しました。1つは分散パラメーターを使用しました。どう思いますか?
-marcodena

2
ポアソン分布の分散=平均は、ポアソン回帰の問題のある仮定として呼び出されることがよくありますが、ここで暗示されるほどポイントは難しくありません。その名前にもかかわらず、ポアソン回帰の主なアイデアは、ログリンク関数です。条件付き分布に関する仮定はそれほど重要ではありません。仮定がすべて当てはまらない場合は、主に、調整しない限り標準誤差がオフになっていることが考えられますが、多くの場合、適合が意味をなします。
ニックコックス

2
確かに、ポアソン回帰は、分散と平均が同じ次元でさえない非負の測定された応答に対して意味をなすことができます。例えば参照blog.stata.com/2011/08/22/...
ニック・コックス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.