ポアソン分布は正規分布とどのように異なりますか?


29

次のように、ポアソン分布を持つベクトルを生成しました。

x = rpois(1000,10)

を使用してヒストグラムを作成するhist(x)と、分布はおなじみのベル型の正規分布のように見えます。ただし、Kolmogorov-Smirnoffのテストでks.test(x, 'pnorm',10,3)は、p値が非常に小さいため、分布は正規分布とは大きく異なります。

だから私の質問は次のとおりです。ヒストグラムが正規分布に非常に似ている場合、ポアソン分布は正規分布とどのように異なりますか?


また(Davidの回答へのアドインとして):これを読んで(stats.stackexchange.com/a/2498/603)、サンプルサイズを100に設定し、その違いを確認します。
user603

回答:


20
  1. ポアソン分布は離散的であり、正規分布は連続的であり、ポアソン確率変数は常に0以上です。したがって、Kolgomorov-Smirnov検定は多くの場合、違いを判別できます。

  2. ポアソン分布の平均が大きい場合、正規分布と同様になります。ただし、正規分布同じようにはrpois(1000, 10)見えません(0で短く停止し、右テールが長すぎます)。

  3. なぜあなたはそれを比較しているks.test(..., 'pnorm', 10, 3)のではなくks.test(..., 'pnorm', 10, sqrt(10))?3との違いはわずかですが、分布を比較するときにそれ自体が違いを生じます。分布が本当に正常であったとしても、保守的でないp値分布になります。10

    set.seed(1)
    
    hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))
    

ここに画像の説明を入力してください


3
多くの場合、人々は漠然と対称的な何かを見て、それが「正常」に見えると仮定します。@Rossが見たものと思われます。
-Fraijo

2
KSテストは一般に連続分布を想定しているため、この場合に報告されたp値に依存することは(また)多少疑わしいことに注意してください。
枢機

1
True:実行hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))は、2つの同一のポアソン分布を比較するテストが保守的すぎることを示しています。
デビッドロビンソン

@Fraijo:確かに。このテーマに関して、より一般的な質問があります。ヒストグラムが釣鐘型の曲線を示す場合、データは正規分布していると言えますか?
シルバーフィッシュ

17

これを理解するはるかに簡単な方法を次に示します。

ほとんどの分布の「母」として二項分布を見ることができます。正規分布は、nが十分に大きくなったときの二項分布の単なる近似です。それはすぐにあなたがコンピュータ(持っていない場合は特に、nが大きくなるにつれて二項分布を計算するために手で出かけるので、二項分布に近似しようとしたときに、実際には、アブラーム・ド・モアブルは、基本的に正規分布を発見し、参照を)。

ポアソン分布はまた、二項分布の単なる近似であるが、それは正規分布よりもはるかに優れて保持している場合、N大きく、且つ =分散(二項分布、平均= NPおよびVARのためにそれを覚えているとほぼ同じである場合、平均Pが小さい、またはより正確ですnp(1-p))(参照)。なぜこの特定の状況がそれほど重要なのですか?どうやらそれは現実の世界でたくさん浮上しているので、この「特別な」近似値があるのです。以下の例は、ポアソン近似が非常にうまく機能するシナリオを示しています。

100,000台のコンピューターのデータセンターがあります。今日、特定のコンピューターに障害が発生する確率は0.001です。そのため、平均してnp = 100台のコンピューターはデータセンターで失敗します。今日、わずか50台のコンピューターが故障する可能性はどのくらいですか?

Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7

実際、正規分布の近似の質は、分布の最後に行くとドレインを下がっていきますが、ポアソンは非常にうまく保持され続けます。上記の例では、現在5台のコンピューターのみが故障する可能性はどのくらいかを考えてみましょう。

Binomial: 2.96E-36 
Poisson: 3.1E-36
Normal: 9.6E-22

うまくいけば、これらの3つの分布をより直感的に理解できるようになります。


なんて驚くべき素晴らしい答えでしょう!どうもありがとう。:)
ボラM.アルパー

11

λnpnpn=λ/n

1つのかなり長い開発がこのブログにあります。

XnBinomial(n,λ/n) k

P(Xn=k)=n!k!(nk)!(λn)k(1λn)nk=n!nk(nk)!1λkk!(1λ/n)neλ(1λ/n)k1.

nk

P(Xn=k)eλλkk!,
n(1λ/n)neλ

npN P P N = λ / N 0 λ NdN(np,np(1p))nppn=λ/n0λn


(+1)サイトへようこそ。いくつかの編集を行いました。プロセスにエラーが発生していないことを確認してください。最後の文の最後のフレーズをどうすればいいのかよくわかりませんでした。そこにいくつかの追加の説明が役立つかもしれません。
枢機

1
私はこの方向が好きですが、3つの分布の間の関係をより明確にすることで、それを手元の質問にもう少し密接に関連付ける方法があるかもしれません。たとえば(a)二項確率変数(シーケンス)はである限りポアソンのように動作し、(b)二項(シーケンス)はがほぼ一定の定数である限り通常のように動作し、(c )ポアソン(シーケンス)は、本質的に無限の可分性により、大きな法線のように動作します。P λnpnλpλ
枢機

1
素晴らしいコメント@cardinal。最後の文について、固定された大きな、より大きなはより大きな(たとえば近い)。したがって、2項分布の正規近似、およびポアソンの精度が向上します。λ P N 1 / 2nλpn1/2
muratoa

ありがとう。あなたが今言おうとしていたことがわかります。私は一般的に、固定されていると見なされ、他のパラメーターとは異なるパラメーター間の関係に注意を払う必要があるという警告に同意します。:)
枢機

λ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.