負の二項分布と二項分布の違いは何ですか?
オンラインで読んでみたところ、データポイントが離散の場合は負の二項分布が使用されることがわかりましたが、二項分布でも離散データポイントに使用できると思います。
負の二項分布と二項分布の違いは何ですか?
オンラインで読んでみたところ、データポイントが離散の場合は負の二項分布が使用されることがわかりましたが、二項分布でも離散データポイントに使用できると思います。
回答:
違いは、私たちが興味を持っているものです。両方の分布は、成功の確率pが固定された独立したベルヌーイ試行から構築されます。
二項分布では、ランダム変数Xはn回の試行で観測された成功の数です。試行回数は固定されているため、Xの可能な値は0、1、...、nです。
負の二項分布では、ランダム変数Yは、r番目の成功が観察されるまでの試行回数です。この場合、我々は我々が到達するまでの試行回数を増加し続けるのR成功を。Yの可能な値は、r、r + 1、r + 2、...、上限なしです。負の二項は、数の点で定義することができる故障までのRの代わりに、多数の、成功番目の試行までのR番目の成功。ウィキペディアでは、この方法で負の二項分布を定義しています。
要約すると:
二項:
負の二項式:
2つのディストリビューションのサポートについて言及することを思い出させてくれたBen Bolkerに感謝します。彼はここで関連する質問に答えました。
負の二項分布は、一見明らかな二項との関係にもかかわらず、実際にはポアソン分布に比べて優れています。3つはすべて離散的です。
実際のアプリケーションでは、ポアソンが予想するよりも高い分散(分散)を観測する場合、NBはポアソンの代替となります。ポアソンは、カウントデータを処理するときに考慮する最初の選択肢です。たとえば、小さな町での年間の自動車事故死者数です。ポアソン分布の平均と分散の両方は、1つのパラメーター、通常表される発生率によって定義されます。を推定している限り、平均と分散が続きます。実際、平均は分散と等しくなければなりません。
データが分散が平均よりも大きいことを示している場合(過剰分散)、これはポアソンを排除し、負の二項分布が次に注目すべき分布になります。複数のパラメーターがあるため、その分散は平均より大きくなる可能性があります。
NBと二項式の関係は、@ Jelsemaの回答で説明されているように、基礎となるプロセスに由来しています。プロセスは関連しているため、分布も関連していますが、ここで説明したように、ポアソン分布へのリンクは実際のアプリケーションではより密接です。
更新:別の側面はパラメーター化です。二項分布には、pとnの2つのパラメーターがあります。その真正なドメインは0〜nです。その点では、離散的であるだけでなく、有限の数のセットで定義されています。
対照的に、ポアソンとNBの両方は、非負整数の無限セットで定義されます。ポアソンには1つのパラメーター、NBには2 つのパラメーターpとrがあります。これら2つにはパラメーターがないことに注意してください。したがって、NBとポアソンがどのように接続されているかを確認するもう1つの方法です。