ポアソン分布が二項分布の限定的なケースである理由を直感的に理解する


14

DS Siviaによる「データ分析」では、二項分布からポアソン分布の導出があります。

彼らは、ポアソン分布はときの二項分布の限定的なケースであると主張しています。Mここで、Mは試行回数です。

質問1:その議論はどのように直感的に理解できますか?

質問2:なぜ大であるMの上限M NにM!N!(MN)!等しいMNN!NM回の試行の成功数ですか?(このステップは派生で使用されます。)


回答:


5

簡単で直感的な説明を試みます。二項確率変数のためにという記録XBin(n,p)私たちは期待を持っているがありnpおよび分散であるnp(1p)。ここで、Xが非常に多数の試行でイベントの数を記録しn、それぞれが非常に小さな確率pに非常に近いと考えます1p=1(本当に)。次に、np=λ言い、そしてnp(1p)np1=λ平均と分散の両方に等しくなるように、λ。次に、ポアソン分布確率変数の場合、常に平均と分散が等しいことに注意してください!これは、少なくともポアソン近似のもっともらしい議論ですが、証明ではありません。

次に、別の視点から、 実際の行のポアソンポイントプロセスhttps://en.wikipedia.org/wiki/Poisson_point_processを見てください。これは、規則に従ってランダムポイントが発生した場合に取得するライン上のランダムポイントの分布です。

  1. 互いに素な間隔の点は独立しています
  2. 非常に短い間隔でのランダムな点の確率は、間隔の長さに比例します
  3. 非常に短い間隔での2つ以上のポイントの確率は本質的にゼロです。

次に、特定の間隔(必ずしも短いとは限らない)内のポイント数の分布はポアソンです(パラメーターは長さに比例します)。さて、この区間を非常に多くの、等しく非常に短い部分区間(n)に分割すると、所定の部分区間内の2つ以上のポイントの確率は本質的にゼロになります。つまり、Bin 1 p であるため、これらすべての合計はBin n p になるため、その(長い)区間内のポイント数のポアソン分布の適切な近似になります。λnBin(1,p)Bin(n,p)

@Ytsen de Boer(OP)から編集:質問番号2は@ŁukaszGradによって十分に回答されています。


6

別のヒューリスティックを提供します。ポアソン過程を二項として近似する方法を示します(そして、確率が低い多くの試行に対して近似が優れていると主張します)。したがって、二項分布はポアソン分布になる傾向があります。

イベントが時間内に一定の割合で発生しているとしましょう。予想されるイベントの数がλであることを知って、1日に発生したイベントの数の分布を知りたいです。

さて、1時間あたりの予想イベント数はλ/24です。これは、特定の時間にイベントが発生する確率がλ/24。[それは非常に適切ではないですが、あれば、それはまともな近似であるλ/241我々は複数のイベントを想定することができれば、基本的に同じ時間では発生しません]。その後、イベント数の分布をM=24試行の二項分布として近似できます。試行はそれぞれ成功確率λ/24を持ちます。

間隔を分に切り替えることにより、近似を改善します。次に、p=λ/1440M=1440試行です。場合λ周りにある、我々は何の分が2つのイベントがなかったことをかなり確信することができ、10を言います。

もちろん、数秒に切り替えると良くなります。ここで、それぞれが小さな確率λ / 86400を持つM=86400イベントを見ています。 λ/86400

あなたどのように大きなどんなにλあるが、私は最終的に十分に小さな選択することができΔtそれは2つのイベントが同じ間隔で発生しないことが非常に可能性がありますように。その対応する二項分布Δt真のポアソン分布に優れた一致であろう。

それらがまったく同じではない唯一の理由は、2つのイベントが同じ時間間隔で発生する可能性がゼロでないことです。しかし、イベントの数がλ程度であり、それらがλよりもはるかに大きいいくつかのビンに分散している場合、それらの2つが同じビンにあることはほとんどありません。

言い換えれば、成功確率がp = λ / Mの場合、二項分布はポアソン分布にMなる傾向があります。p=λ/M


5

質問1

二項分布の定義を思い出してください。

一定の試行回数で成功する可能性のある結果の頻度の頻度分布。各試行では同じ確率で成功します。

これをポアソン分布の定義と比較してください。

固定時間に発生する多数の独立した出来事の確率を与える離散頻度分布。

2の実質的な違いは、2項分布が回の試行であり、ポアソンが期間tにわたっていることです。制限は直感的にどのように発生しますか?nt

永遠にベルヌーイ試験を続けなければならないとしましょう。さらに、1分あたりを実行します。毎分、あなたはそれぞれの成功を数えます。したがって、すべての永遠のために、あなたはB i n p 30 n=30Bin(p,30)毎分プロセスを実行しています。24時間にわたって、ます。Bin(p,43200)

疲れると、「18:00から19:00の間に何件成功したか」と尋ねられます。あなたは答えかもしれませんつまり、1時間で平均の成功を提供します。これは、ポアソンパラメーター λによく似ています。3060pλ


5

質問2)

M!N!(MN)!MNN!=M(M1)(MN+1)MN=1(11M)(1N1M)

固定Nの制限を採用N

limMM!N!(MN)!MNN!=limM1(11M)(1N1M)=1

+1。私はスターリングの近似を見て始めましたが、輪になって走り始めました。アプローチはずっと簡単です。

私は...これはOPが直感的にわかります何だと思ういけない
はKjetil bはHalvorsenの

私はできるだけ簡単な数学を使用しようとしました@kjetilbhalvorsen、直感的に大規模なため我々は持っているM Mを- kの固定のためのk < < MMMMkk<<M
ルカシュGradの

1
@kjetilbhalvorsenこれは、Q2への答え(導出ステップ)、ないQ1(直観的説明)である
ベンBolker

@TemplateRexうーん私は各点収束を証明するとき私はすべての固定のためにそれを証明する必要があると思うとして、Mが infiityに行く、そうではありませんか?あるω Ω LIM M X Mω X ω NMωΩlimmXm(ω)X(ω)
ルカシュグラ

5

問題は、二項分布の限定的なケースとしてのポアソンの特徴付けが、述べられているようにまったく正しくないことです。

ポアソンは、M ∞の場合に二項式の限定的なケースです。 2番目の部分は重要です。pが固定されたままの場合、最初の条件は、レートも制限なく増加することを意味します。

MandMpλ.
p

ポアソン分布が想定しているのは、イベントはまれであるということです。確かに、ポアソン過程が非常に高い強度を有することができる-私たちは「珍しい」の意味は、イベントの発生率が小さいということではありません事象の確率が時間内に任意の瞬間に起こることを、むしろ-しかし[ トンをt + d t は非常に小さいです。これは、確率pの二項モデルとは対照的です。λ[t,t+dt)p、イベントの(「成功」など)が特定の試行に対して固定されです。

説明のために、それぞれ成功確率pを持つ一連の独立したベルヌーイ試行をモデル化し、成功数Xの分布がM としてどうなるかを見てみましょう。任意のNでpがどれだけ小さくても、予想される成功数E [ X ] = M p > N for M > N / pMpXMNpE[X]=Mp>NM>N/p。別の言い方をすれば、成功の確率がいくら低くても、十分な数の試行を実行すれば、最終的に希望する数の成功の平均数を達成できます。したがって、(または、単に「Mは大きい」と言う)では、Xのポアソンモデルを正当化するのに十分ではありません。MMX

代数的に確立することは困難ではないの極端な場合としてのPr [ X = X ] = M

Pr[X=x]=eλλxx!,x=0,1,2,
に設定することにより P = λ / Mをとせ M 。ここでの他の回答は、この関係の背後にある直観に対処し、計算ガイダンスも提供しました。しかし、 p = λ / Mであることが重要です。これは無視できません。
Pr[X=x]=(Mx)px(1p)Mx,x=0,1,2,,M
p=λ/MMp=λ/M

0

私は一部の回答のみを試みることができ、それは厳密な証拠ではなく、質問2の直感に関するものです。

二項係数により、サイズのサンプル数が得られます。NM、置換および順序なしで提供します。

MMNNMN/N!NN!


-2

Balls falling through layers of pegs

これは、二項分布が多数のボールで正規分布に収束する方法を直感的に説明する最良の例だと思います。ここで、各ボールは各層のペグの両側に落ちる確率が等しく、すべてのボールは同じ数のペグに直面しなければなりません。ボールの数が非常に多くなると、異なるセクションのボールの分布が通常の分布のようになることが容易にわかります。

あなたの質問2に対する私の答えは、Lukaszの答えと同じです。


2
これは本当に質問に答えているのではなく、別の質問に答えている...
kjetil b halvorsen

質問1で尋ねられたものを直感的に説明しようとしました。なぜそれが答えではないと思うのか、詳しく説明してください。
samwise_the_wise

1
申し訳ありませんが、私は今ポイントを得ました。私はまったく別の質問に答えました。私の悪い。
samwise_the_wise

1
二項分布の非常に離散化されたバージョンがあります。この五角形の底にあるボールの分布が正常であることが明らかになるのはなぜですか このマシンを介してドロップするボールの数に関係なく、13個のビンでカウントの分布が得られます。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.