ポアソン分布の正規近似


12

ここウィキペディアでそれは言う:

値が十分大きい場合(たとえば)、平均と分散(標準偏差)の正規分布は、ポアソン分布の優れた近似です。場合約10より大きい場合、その後、正規分布は、適切な連続性補正が行われた場合、すなわち、良好な近似である(小文字)ここで、負でない整数であることにより、置換されていますλλ>1000λλλλP(Xx),xP(Xx+0.5).

FPoisson(x;λ)Fnormal(x;μ=λ,σ2=λ)

残念ながら、これは引用されていません。私はこれをいくつかの厳密さで示し/証明できるようにしたいです。\ lambda> 1000の場合、正規分布が良い近似であると実際に言うにはどうすればよいですか。この「優れた」近似をどのように定量化し、どの測度を使用しましたか?λ>1000

私がこれで得た最も遠いところは、ここでジョンがベリーエッセンの定理の使用について話し、2つのCDFのエラーを概算します。私が見ることができることから、彼はλ1000値を試していません。


6
「良い」を定義せずにそれを証明することはできません。(漸近的な結果を証明することはできますが、基準を定義せずに特定のサンプルサイズでそれが「良好」であることを宣言することはできません。)直接的な例によってその動作を示すことができます(そこから人々はどれほど「良い」かを見ることができます。独自のライトによる)。人々がよく使用する一般的な基準では、尾部を深く掘り下げない限り、連続性補正はうまく機能します。λ>10
Glen_b-モニカの復活2014

1
(具体的には、基準が絶対エラーの場合、10のような小さなサンプルサイズであらゆる場所で「良好」を達成できる可能性がありますが、ほとんどの人は相対エラーに近いものに
関心を持ってい

回答:


7

仮定パラメータでポアソンです、および平均と分散を持つ正規である。とは適切に比較されているようです。ここでは簡単にするために、と記述します。つまり、が平均からの標準偏差に対応する場合に関心があります。XλYλPr(X=n)Pr(Y[n12,n+12])n=λ+αλnα

だから私はだまされました。私はMathematicaを使用しました。したがって、とはも漸近します を。しかし、その差は、漸近的になる もしこれを関数としてプロットすると、http://www.johndcook.com/blog/normal_approx_to_poisson/の最後から2番目の図に示されているのと同じ曲線が得られますPr(X=n)Pr(Y[n12,n+12])

12πλeα2/2
λ
α(α23)eα2/262πλ
α

使用したコマンドは次のとおりです。

  n = lambda + alpha Sqrt[lambda];
  p1 = Exp[-lambda] lambda^n/n!;
  p2 = Integrate[1/Sqrt[2 Pi]/Sqrt[lambda] Exp[-(x-lambda)^2/2/lambda], {x, n-1/2, n+1/2}];
  Series[p1, {lambda, Infinity, 1}]
  Series[p2, {lambda, Infinity, 1}]

また、少し実験してみると、より良い漸近近似は。次に、エラーは は、約倍小さくなります。Pr(X=n)Pr(Y[nα2/6,n+1α2/6])

(5α49α26)eα2/2722πλ3/2
λ

2

Glen_bは、「良い適合」が非常に主観的な概念であるという点で正しいです。ただし、ポアソン分布がかなり正常であることを確認したい場合は、帰無仮説がある架空のコルモルゴフ-スミルノフ検定を使用できます。CDF は分布から得られ、サンプルはpoisson()から取得されます。実際にはサンプルをテストしているのではなく、ある分布を別の分布に対してテストしているため、この仮説テストで想定するサンプルサイズと有意水準について慎重に検討する必要があります(KSテストを通常の方法で使用していないため)。あれは:H0:N(λ,λ)λ

  • 代表的な架空のサンプルサイズnを選び、検定の有意水準を典型的な値、たとえば5%に調整します。

ここで、データが実際にはpoisson()からのものであると想定して、このテストのタイプIIエラー率を計算します。特定のポアソン分布からのサイズnのサンプルは、平均して、選択したKS正規性テストにより、時間の%の確率で受け入れられるという意味で、正規分布との適合度はこのタイプIIエラー率になります。重要なレベル。λβ

とにかく、それは「フィット感」を得る方法の1つにすぎません。ただし、すべて自分で定義しなければならない「良さ」の主観的な概念に依存しています。


2

二項分布からの導出は、いくつかの洞察を得るかもしれません。

二項確率変数があります。

p(x)=(nx)px(1p)nx

これは、代わりに再帰的に計算することもできます。

p(x)=(nx+1)px(1p)p(x1)

初期状態を保てば、

p(0)=(1p)n

ここで、は大きく、は小さいが、平均成功は一定と仮定します。次に、以下を実行できます。npp(x)(np=λ)

P(X=i)=(ni)px(1p)nx

このを使用します。p=λ/n

P(X=i)=n!(ni)!i!(λn)i(1λn)ni

いくつかの変数を切り替えて評価します。

P(X=i)=n(n1)(n2)(ni+1)niλii!(1λn)n(1λn)i

微積分から、ことがわかります。また、ことも知っています。これは、上と下の両方が次の多項式であるためです。limn(1+x/n)n=ex[n(n1)(n2)(ni+1)]/ni1i

これと結論をリード:n

P(X=i)eλλii!

次に、およびことを確認できますE(X)=λVar(X)=λ、定義を介します。連続性を修正する限り、二項分布はDe Moivre-Laplaceの定理の条件下で正規に近似することがわかっています。そのため、は置き換えられます。。P(Xx)P(Xx+0.5)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.