負の二項分布と二項分布


22

負の二項分布と二項分布の違いは何ですか?

オンラインで読んでみたところ、データポイントが離散の場合は負の二項分布が使用されることがわかりましたが、二項分布でも離散データポイントに使用できると思います。


5
彼らはしている両方の離散。
Glen_b -Reinstate Monica

5
簡単な説明:キャンディツードアを販売しています。ドアをノックオンするたびに、1個のキャンディーバーを売る確率1/4と3/4の確率、または0個のキャンディーバーを販売します。50個のドアをノックした場合にn個のバーを売る確率は、nの二項分布です。30本のバーを売るためにmドアをノックしなければならない確率は、mの負の二項分布です。前者は50を超えるバーを販売できないため50で切り捨てられますが、後者はその日にひどい運があり、30番目のバーを売ることができないため、無限大にテールがあります。
ジェリーガーン

回答:


30

違いは、私たちが興味を持っているものです。両方の分布は、成功の確率pが固定された独立したベルヌーイ試行から構築されます。

二項分布では、ランダム変数Xn回の試行で観測された成功の数です。試行回数は固定されているため、Xの可能な値は0、1、...、nです。

負の二項分布では、ランダム変数Yは、r番目の成功が観察されるまでの試行回数です。この場合、我々は我々が到達するまでの試行回数を増加し続けるのR成功を。Yの可能な値は、rr + 1r + 2、...、上限なしです。負の二項は、数の点で定義することができる故障までのRの代わりに、多数の、成功番目の試行までのR番目の成功。ウィキペディアでは、この方法で負の二項分布を定義しています。

要約すると:

二項

  • 固定試行回数(n
  • 成功の固定確率(p
  • ランダム変数はX =成功数です。
  • 可能な値は0≤あるXn個

負の二項式

  • 成功回数(r)を修正
  • 成功の固定確率(p
  • ランダム変数はY = r番目の成功までの試行回数です。
  • 可能な値はRY

2つのディストリビューションのサポートについて言及することを思い出させてくれたBen Bolkerに感謝します。彼はここで関連する質問に答えました。


4
NBの詳細については、stats.stackexchange.com / questions / 6728 / …をご覧ください。二項応答が制限されている[0、N]、NB応答が制限されていない[0、...]
ベンボルカー

良い点は、これを含めるように回答を更新しました。
-Jelsema

詳細な回答をしてくれたjelsemaに感謝します。今ではもっとよく理解できました
15年

19

負の二項分布は、一見明らかな二項との関係にもかかわらず、実際にはポアソン分布に比べて優れています。3つはすべて離散的です。

実際のアプリケーションでは、ポアソンが予想するよりも高い分散(分散)を観測する場合、NBはポアソンの代替となります。ポアソンは、カウントデータを処理するときに考慮する最初の選択肢です。たとえば、小さな町での年間の自動車事故死者数です。ポアソン分布の平均と分散の両方は、1つのパラメーター、通常表される発生率によって定義されます。を推定している限り、平均と分散が続きます。実際、平均は分散と等しくなければなりません。λλ

データが分散が平均よりも大きいことを示している場合(過剰分散)、これはポアソンを排除し、負の二項分布が次に注目すべき分布になります。複数のパラメーターがあるため、その分散は平均より大きくなる可能性があります。

NBと二項式の関係は、@ Jelsemaの回答で説明されているように、基礎となるプロセスに由来しています。プロセスは関連しているため、分布も関連していますが、ここで説明したように、ポアソン分布へのリンクは実際のアプリケーションではより密接です。

更新:別の側面はパラメーター化です。二項分布には、pとnの2つのパラメーターがあります。その真正なドメインは0〜nです。その点では、離散的であるだけでなく、有限の数のセットで定義されています。

対照的に、ポアソンとNBの両方は、非負整数の無限セットで定義されます。ポアソンには1つのパラメーター、NBには2 つのパラメーターpとrがあります。これら2つにはパラメーターがないことに注意してください。したがって、NBとポアソンがどのように接続されているかを確認するもう1つの方法です。λn


3
「ポアソン分布と比較してより良い」という意味がわかりません。元の質問は、どのようなモデリングが望まれるかを述べていません。モデリングに興味があることを意味するものでもありません。
ヘロパプ

@ heropup、OPは明らかにアプリケーションに興味があり、NBとBinomialを直接比較します。したがって、私の答えはその比較に関するものであり、ポアソンとの比較は典型的なアプリケーションにおいてより適切です。
アクサカル

7

これらは両方とも離散的であり、サンプリング時のカウントを表します。

DNS=DDDDDNDNDDNNNDDNDNNNDNNN

S=DNDNNDNNND

p

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.