DS Siviaによる「データ分析」では、二項分布からポアソン分布の導出があります。
彼らは、ポアソン分布はときの二項分布の限定的なケースであると主張しています。ここで、は試行回数です。
質問1:その議論はどのように直感的に理解できますか?
質問2:なぜ大であるの上限M Nに等しい、は回の試行の成功数ですか?(このステップは派生で使用されます。)
DS Siviaによる「データ分析」では、二項分布からポアソン分布の導出があります。
彼らは、ポアソン分布はときの二項分布の限定的なケースであると主張しています。ここで、は試行回数です。
質問1:その議論はどのように直感的に理解できますか?
質問2:なぜ大であるの上限M Nに等しい、は回の試行の成功数ですか?(このステップは派生で使用されます。)
回答:
簡単で直感的な説明を試みます。二項確率変数のためにという記録私たちは期待を持っているがありおよび分散である。ここで、が非常に多数の試行でイベントの数を記録し、それぞれが非常に小さな確率、に非常に近いと考えます(本当に)。次に、言い、そして平均と分散の両方に等しくなるように、。次に、ポアソン分布確率変数の場合、常に平均と分散が等しいことに注意してください!これは、少なくともポアソン近似のもっともらしい議論ですが、証明ではありません。
次に、別の視点から、 実際の行のポアソンポイントプロセスhttps://en.wikipedia.org/wiki/Poisson_point_processを見てください。これは、規則に従ってランダムポイントが発生した場合に取得するライン上のランダムポイントの分布です。
次に、特定の間隔(必ずしも短いとは限らない)内のポイント数の分布はポアソンです(パラメーターは長さに比例します)。さて、この区間を非常に多くの、等しく非常に短い部分区間(n)に分割すると、所定の部分区間内の2つ以上のポイントの確率は本質的にゼロになります。つまり、Bin (1 、p )であるため、これらすべての合計はBin (n 、p )になるため、その(長い)区間内のポイント数のポアソン分布の適切な近似になります。
@Ytsen de Boer(OP)から編集:質問番号2は@ŁukaszGradによって十分に回答されています。
別のヒューリスティックを提供します。ポアソン過程を二項として近似する方法を示します(そして、確率が低い多くの試行に対して近似が優れていると主張します)。したがって、二項分布はポアソン分布になる傾向があります。
イベントが時間内に一定の割合で発生しているとしましょう。予想されるイベントの数がであることを知って、1日に発生したイベントの数の分布を知りたいです。
さて、1時間あたりの予想イベント数はです。これは、特定の時間にイベントが発生する確率が。[それは非常に適切ではないですが、あれば、それはまともな近似である我々は複数のイベントを想定することができれば、基本的に同じ時間では発生しません]。その後、イベント数の分布を試行の二項分布として近似できます。試行はそれぞれ成功確率を持ちます。
間隔を分に切り替えることにより、近似を改善します。次に、、試行です。場合周りにある、我々は何の分が2つのイベントがなかったことをかなり確信することができ、10を言います。
もちろん、数秒に切り替えると良くなります。ここで、それぞれが小さな確率λ / 86400を持つイベントを見ています。
あなたどのように大きなどんなにあるが、私は最終的に十分に小さな選択することができそれは2つのイベントが同じ間隔で発生しないことが非常に可能性がありますように。その対応する二項分布真のポアソン分布に優れた一致であろう。
それらがまったく同じではない唯一の理由は、2つのイベントが同じ時間間隔で発生する可能性がゼロでないことです。しかし、イベントの数が程度であり、それらがよりもはるかに大きいいくつかのビンに分散している場合、それらの2つが同じビンにあることはほとんどありません。
言い換えれば、成功確率がp = λ / Mの場合、二項分布はポアソン分布になる傾向があります。
二項分布の定義を思い出してください。
一定の試行回数で成功する可能性のある結果の頻度の頻度分布。各試行では同じ確率で成功します。
これをポアソン分布の定義と比較してください。
固定時間に発生する多数の独立した出来事の確率を与える離散頻度分布。
2の実質的な違いは、2項分布が回の試行であり、ポアソンが期間tにわたっていることです。制限は直感的にどのように発生しますか?
永遠にベルヌーイ試験を続けなければならないとしましょう。さらに、1分あたりを実行します。毎分、あなたはそれぞれの成功を数えます。したがって、すべての永遠のために、あなたはB i n (p 、30 )毎分プロセスを実行しています。24時間にわたって、ます。
疲れると、「18:00から19:00の間に何件成功したか」と尋ねられます。あなたは答えかもしれませんつまり、1時間で平均の成功を提供します。これは、ポアソンパラメーター λによく似ています。
質問2)
固定Nの制限を採用
問題は、二項分布の限定的なケースとしてのポアソンの特徴付けが、述べられているようにまったく正しくないことです。
ポアソンは、M → ∞の場合に二項式の限定的なケースです。 2番目の部分は重要です。pが固定されたままの場合、最初の条件は、レートも制限なく増加することを意味します。
ポアソン分布が想定しているのは、イベントはまれであるということです。確かに、ポアソン過程が非常に高い強度を有することができる-私たちは「珍しい」の意味は、イベントの発生率が小さいということではありません事象の確率が時間内に任意の瞬間に起こることを、むしろ-しかし[ トンを、t + d t )は非常に小さいです。これは、確率pの二項モデルとは対照的です。、イベントの(「成功」など)が特定の試行に対して固定されです。
説明のために、それぞれ成功確率pを持つ一連の独立したベルヌーイ試行をモデル化し、成功数Xの分布がM → ∞としてどうなるかを見てみましょう。任意のNで、pがどれだけ小さくても、予想される成功数E [ X ] = M p > N for M > N / p。別の言い方をすれば、成功の確率がいくら低くても、十分な数の試行を実行すれば、最終的に希望する数の成功の平均数を達成できます。したがって、(または、単に「Mは大きい」と言う)では、Xのポアソンモデルを正当化するのに十分ではありません。
代数的に確立することは困難ではないの極端な場合としてのPr [ X = X ] = ( M
これは、二項分布が多数のボールで正規分布に収束する方法を直感的に説明する最良の例だと思います。ここで、各ボールは各層のペグの両側に落ちる確率が等しく、すべてのボールは同じ数のペグに直面しなければなりません。ボールの数が非常に多くなると、異なるセクションのボールの分布が通常の分布のようになることが容易にわかります。
あなたの質問2に対する私の答えは、Lukaszの答えと同じです。