大きなデータでのポアソン回帰:測定単位を変更するのは間違っていますか?


17

ポアソン分布の階乗のため、観測値が大きい場合、ポアソンモデルを推定することは(たとえば、最尤法を使用して)非実用的になります。たとえば、特定の年の自殺者数を説明するモデルを推定しようとしている場合(年間データのみが利用可能です)、たとえば、毎年何千人も自殺しているとすると、自殺者を数百人で表現するのは間違っていますか? 、したがって2998は29.98〜= 30になりますか?つまり、データを管理しやすくするために測定単位を変更するのは間違っていますか?

回答:


15

\ lambda(パラメーター)の値が大きいポアソン分布を扱う場合、ポアソン分布の正規近似を使用するのが一般的です。

このサイトは言及し、それは、\ラムダが20を乗り越える際に正規近似を使用するすべての権利だ、と\ラムダがさらに高くなるにつれて近似が向上します。

ポアソン分布は、非負の整数で構成される状態空間でのみ定義されるため、再スケーリングと丸めにより、データに奇妙なことが導入されます。

通常の約を使用して。大きなポアソン統計の場合、非常に一般的です。


6

ポアソンの場合、カウントはカウントであるため、それは悪いことです。その単位は単一です。一方、Rのような高度なソフトウェアを使用する場合、ポアソン処理関数はそのような大きな数値を認識し、数値トリックを使用してそれらを処理します。

明らかに、正規近似は別の優れたアプローチであることに同意します。


3

ほとんどの統計パッケージには、階乗の自然対数を直接計算する関数があります(たとえば、Rのlfactorial()関数、Stataのlnfactorial()関数)。これにより、必要に応じて定数項を対数尤度に含めることができます。


また、n!= Gamma(n+1)のためのn> = 0だから、呼び出された関数を探ししようGamma(あなたは対数尤度を計算している場合、ガンマをまたはログ)あなたは階乗を計算する必要がある場合
アンドレホルズナー

3

あなたはそれができないのではないかと心配しています。@Baltimarkが述べているように、大きなラムダでは分布はより正規の形状(対称)になり、縮小するとポアソン分布ではなくなります。Rで次のコードを試してください。

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

結果は以下のとおりです。

ここに画像の説明を入力してください

ダウンスケールされたポアソン(赤い線)はポアソン分布とは完全に異なっていることがわかります。


1

最尤法を使用する場合、単に「階乗」を無視できます。これが自殺の例の理由です。させてください:

λ:1年あたりの予想自殺者数

k ii年目の自殺者数。

次に、対数尤度を次のように最大化します。

LL = ∑(k i log(λ)-λ-k i!)

上記を最大化することは、以下をk iとして最大化することと同等です!は定数です:

LL ' = ∑(k i log(λ)-λ)

階乗が問題である理由を説明できますか?何か不足していますか?


一連の観測からパラメータを推定するだけであれば、何かを見逃すことはありません。それは間違いなくOPの質問の主要なアイデアでした。しかし、彼女は一般に(厳密でないとしても)「ポアソンモデルを推定する方法」も尋ねていました。おそらく、彼女は特定の時点でのpdfの価値を知りたいと思うでしょう。その場合、通常の約。おそらく、観測値が階乗の計算を非実用的にするのに十分な大きさである場合、パラメーターや観測値を100でスケーリングすることよりも、おそらく良いでしょう。
バルティマーク

1
@Srikant、あなたは正しい、階乗は問題ではないパラメーターを推定するが、一般的にあなたは与えられたモデルの尤度の値が欲しいでしょう、そしてあなたはそのために階乗を使わなければなりません。また、仮説検定(尤度比検定など)には、尤度の値が必要です。
ビビ

@Baltimark:はい、ポアソンの測定単位を変更することが有効かどうかを一般的に知りたいです。私はこの質問をされましたが、何を言うべきかわかりませんでした。
ビビ

@Vivi:k_iで尤度を計算する理由がわかりません!ほとんどのアプリケーション(尤度比検定、ベイズ推定など)に含まれている定数は重要ではありません。いずれにせよ、私はあなたが提案したようにスケールを変更できるとは思わない。そうでないと感じた場合は、回答を更新します。

@Srikant、私はあなたのポイントを見るが、いくつかのソフトウェア(例えば、Eviews)はデフォルトでこれを含みます、そして、大きな数字はあなたがそれを好むか好まない問題です。どうしてそれができるかできないかを説明するのではなく、それを回避する方法ではなく、議論が面白く
Vivi
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.