二項分布とベータ分布の関係

27

私は統計学者というよりもプログラマーなので、この質問があまりにも素朴ではないことを願っています。

ランダムにプログラムの実行をサンプリングするときに発生します。プログラムの状態のN = 10のランダムな時間のサンプルを取得すると、たとえば、それらのサンプルのI = 3で関数Fooが実行されていることがわかります。Fooが実行されている時間Fの実際の割合について、それが何を教えてくれるのか興味があります。

私は平均F * Nで二項分布していることを理解しています。IとNが与えられると、Fはベータ分布に従うことも知っています。実際、私はこれらの2つのディストリビューション間の関係をプログラムで検証しました。

cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1

問題は、私が関係について直感的な感覚を持っていないことです。なぜそれが機能するのかを「描く」ことはできません。

編集：すべての答えは、特に@whuberのように挑戦的でした。これはまだ理解する必要がありますが、統計を整理することは非常に役に立ちました。それにもかかわらず、私はもっと基本的な質問をするべきだったことに気付きました：IとNを考えると、Fの分布は何ですか？誰もがベータ版だと指摘しましたが、それは私が知っていました。私はついにウィキペディア（以前の共役）からそれがあるように思えたBeta(I+1, N-I+1)。プログラムでそれを調べた後、それは正しい答えのように見えます。だから、私が間違っているかどうかを知りたいです。そして、上記の2つのcdfの関係、なぜ合計が1になるのか、そして私が本当に知りたいことと何か関係があるのかどうか、まだ混乱しています。

binomial beta-binomial beta-distribution

— マイク・ダンレイビー
ソース

「実際に知りたいこと」が「Fooが実行されている実際の時間の割合」である場合、2項信頼区間または（ベイジアン）2項信頼区間について質問しています。

— whuber

@whuber：30年以上にわたり、パフォーマンスチューニングのランダム一時停止方法を使用してきましたが、他の人々もそれを発見しました。2つ以上のランダム時間サンプルに何らかの条件が当てはまる場合、それを削除するとかなりの時間を節約できると人々に話しました。ベイズの事前分布がわからないという前提で、私が明示的に言おうとしたのは、どの程度良い部分かということです。ここでは一般的な炎です：stackoverflow.com/questions/375913/...とstackoverflow.com/questions/1777556/alternatives-to-gprof/...

— マイクDunlavey

1

良いアイデア。統計的な仮定は、中断が実行状態に依存しないことであり、これは合理的な仮説です。二項信頼区間は、不確実性を表現するために使用するための優れたツールです。（これは目を見張るものでもあります。3/ 10の状況では、真の確率の対称両側95％CIは[6.7％、65.2％]です。2/ 10の状況では、間隔は[2.5 ％、55.6％]。これらは広い範囲です！2/3でも下限はまだ10％未満です。ここでの教訓は、かなりまれなことが2回発生する可能性があることです。）

— whuber

@whuber：ありがとう。あなたが正しい。より有用なのは期待値です。事前知識に関して言えば、何かを一度しか見ないと、プログラムが無限ループ（または非常に長いループ）にあることを知らない限り、それはあまり伝えられないと指摘します。

— マイクダンラベイ

答えやコメントはすべて確かに啓発的で正しいものだったと思いますが、@ MikeDunlaveyが彼の元の投稿で述べた興味深い平等に実際に触れた人はいませんでした。この平等はベータ版ウィキペディアen.wikipedia.org/wiki/Beta_function#Incomplete_beta_functionで見つけることができますが、なぜそうなのかについての説明はありません。プロパティとして記載されています。

— bdeonovic

27

一様分布からの独立した描画の順序統計を考慮してください。順序統計にはベータ分布があるため、が超えない可能性はベータ積分で与えられます $x_{[0]} \le x_{[1]} \le \cdots \le x_{[n]}$ $n+1$ $x_{[k]}$ $p$

Pr [x_{[k]} \leq p] = \frac{1}{B (k + 1, n - k + 1)} \int_{0}^{p} x^{k} (1 - x)^{n - k} d x .

$\Pr[x_{[k]} \le p] = \frac{1}{B(k+1, n-k+1)} \int_0^p{x^k(1-x)^{n-k}dx}.$

（これはなぜですか？ここに、厳密ではないが記憶に残るデモンストレーションがありますがと間にある可能性は、一様な値のうち、がと、それらの少なくとも1つはとにあり、残りはと間にあります。無限小ので最初に順序を付けるには、1つの値（自体）と間にあるため、 $x_{[k]}$ $p$ $p + dp$ $n+1$ $k$ $0$ $p$ $p$ $p + dp$ $p + dp$ $1$ $dp$ $x_{[k]}$ $p$ $p + dp$ $n - k$ 値が超えています。すべての値は独立していて均一であるため、この確率は比例します。最初の順序では、これはに等しく、正確にベータ分布の被積分関数です。項は、この引数から多項係数として直接計算するか、または積分の正規化定数。） $p + dp$ $p^k (dp) (1 - p - dp)^{n-k}$ $dp$ $p^k(1-p)^{n-k}dp$ $\frac{1}{B(k+1, n-k+1)}$ ${n+1}\choose{k,1, n-k}$

定義により、イベントは、値が超えないことです。同様に、値の少なくともは超えません。この単純な（そして明白なことを願う）主張は、あなたが求める直感を提供します。同等のステートメントの確率は、二項分布によって与えられます。 $x_{[k]} \le p$ $k+1^\text{st}$ $p$ $k+1$ $p$

Pr [at least k + 1 of the x_{i} \leq p] = \sum_{j = k + 1}^{n + 1} (\binom{n + 1}{j}) p^{j} (1 - p)^{n + 1 - j} .

$\Pr[\text{at least }k+1\text{ of the }x_i \le p] = \sum_{j=k+1}^{n+1}{{n+1}\choose{j}} p^j (1-p)^{n+1-j}.$

要約すると、ベータ積分は、イベントの計算を一連の計算に分割します。範囲で少なくとも値を検出します通常、その確率は二項累積分布関数で計算され、相互に分解されます排他的な場合、正確に値が範囲内にある 1つの値が範囲内にあるすべての可能なため、、及び無限小の長さです。そのようなすべての「ウィンドウ」合計すると（つまり、積分して）、二項累積分布関数と同じ確率を与える必要があります。 $k+1$ $[0, p]$ $k$ $[0, x]$ $[x, x+dx]$ $x$ $0 \le x \lt p$ $dx$ $[x, x+dx]$

代替テキスト

— ウーバー
ソース

努力に感謝します。これは私の「母国語」ではないので、本当に勉強しなければなりません。また、多くのドル記号と書式設定が表示されています。それが本当の数学のように見えることについて私が知らないことはありますか？

— マイクダンラベイ

何が起こった？突然、数学が現れ、ここでの入力は本当に遅くなりました。

— マイクダンラベイ

@マイクを参照してくださいがmeta.stats.stackexchange.com/q/218/919。

— whuber

ご覧になりたい場合は、質問を修正しました。ありがとう。

— マイクダンラベイ

1

少し遅れましたが、ようやく座って議論を再現する時間ができました。キーは「多項係数」でした。私は昔ながらの二項係数を使ってそれを理解しようとしましたが、すべてが盛り上がっていました。いい答えをありがとう。

— マイクダンラベイ

12

関数としてのBinomialのpdfを見てください：および関数としてのBetaのpdf ：おそらく見ることができますと適切な（整数の）選択が、これらは同じです。私が知る限り、この関係はこれですべてですが2項分布pdfに入る方法は、たまたまベータ分布と呼ばれています。 $x$

f (x) = (\binom{n}{x}) p^{x} (1 - p)^{n - x}

$f(x) = {n\choose{x}}p^{x}(1-p)^{n-x}$

p

$p$

g (p) = \frac{Γ (a + b)}{Γ (a) Γ (b)} p^{a - 1} (1 - p)^{b - 1}

$g(p)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}p^{a-1}(1-p)^{b-1}$

a

$a$

b

$b$

p

$p$

— アニコ
ソース

これらはほとんど同じように見えますが、nxの代わりにyを使用し、ベータ版のpdfを使用してa-1にxを、b-1にyを置換すると、（x + y + 1）の追加係数が得られます。またはn + 1。すなわち（x + y + 1）！/ x！/ y！* p ^ x * q ^ y。それは私を捨てるのに十分なようです。

— マイクダンラベイ

1

誰かが完全な応答でチャイムするかもしれませんが、「直感的な」説明では、関心のある変数（および）に依存しないが（ような）定数を常に手で振り払うことができます。PDFを1に追加/統合します。「平等」記号を「比例」記号に置き換えてください。

n + 1

$n+1$

x

$x$

p

$p$

— アニコ

いい視点ね。私は理解に近づいていると思います。私はまだxがp分布について何を伝えているのか、そしてなぜこれらの2つの累積分布関数が1になるのかを言おうとしています。

— Mike Dunlavey

1

私は「直観的な」説明の別の見方をします。場合によっては定数についてあまり気にしませんが、この場合、問題の核心はnではなくn + 1が表示される理由を確認することです。あなたがそれを理解しないならば、あなたの「直観」は間違っています。

— whuber

ご覧になりたい場合は、質問を修正しました。ありがとう。

— マイクダンラベイ

5

前述のように、ベータ分布は試行確率パラメーター分布を表し、二項分布は結果パラメーター分布を表します。あなたの質問を書き直して、あなたが尋ねたのは、つまり、観測値に1を加えたものが観測値の期待値より大きい可能性は、観測値の期待値と同じです観測値に1を加えた値は、観測値の期待値よりも大きくなります。 $F$ $I$

P (F \leq \frac{i + 1}{n}) + P (I \leq f n - 1) = 1

$P(F \le \frac {i+1} n)+P(I \le fn-1)=1$

P (F n \leq i + 1) + P (I + 1 \leq f n) = 1

$P(Fn \le i+1)+P(I+1 \le fn)=1$

P (F n \leq i + 1) = P (f n < I + 1)

$P(Fn \le i+1)=P(fn<I+1)$

これは問題の元の定式化を直観する助けにはならないかもしれませんが、少なくとも2つの分布が繰り返しのベルヌーイ試行の同じ基礎モデルを使用して異なるパラメーターの動作を記述する方法を確認するのに役立つかもしれません。

— セスク
ソース

あなたの意見に感謝します。すべての答えは、私が質問について考え、おそらく私が尋ねていることをよりよく理解するのに役立ちます。

— マイクダンラベイ

ご覧になりたい場合は、質問を修正しました。ありがとう。

— マイクダンラベイ

1

リビジョンに関して：はい、、サンプリング間隔が十分長く、各観測が独立しており、同一に分布している限り。それについてベイジアンになりたい場合、実際の割合が予想される不均一な事前分布を指定する場合は、両方のパラメーターに何かを追加できることに注意してください。

F \sim B e t a (I + 1, N - I + 1)

$F\sim Beta(I+1,N-I+1)$

— sesqu

@sesqu、あなたの答えはどういうわけかここの私の質問に関連しています：stats.stackexchange.com/questions/147978/…？私はあなたの考えに感謝します。

— ビセント

1

ベイジアン土地では、ベータ分布は二項分布のpパラメーターの共役共役です。

— イアン・フィスケ
ソース

2

はい、でもこれはなぜですか？

— vonjd

1

他の回答にコメントできないので、自分で回答を作成する必要があります。

事後= C *尤度*事前（Cは事後を1に統合する定数です）

尤度に二項分布を使用し、事前分布にベータ分布を使用するモデルを考えます。事後を生成する2つの積もベータ分布です。PriorとPosteriorは両方ともベータであるため、これらは共役分布です。事前（ベータ）は、尤度（二項）の共役事前と呼ばれます。たとえば、ベータにノーマルを掛けると、後部はベータではなくなります。要約すると、ベータと二項分布は、ベイジアン推論で頻繁に使用される2つの分布です。ベータは二項の共役事前分布ですが、2つの分布は他の分布のサブセットまたはスーパーセットではありません。

ベイジアン推論の重要な考え方は、パラメーターpを[0,1]の範囲のランダム変数として扱うことです。これは、パラメーターpを固定として扱う頻繁な推論アプローチに反します。ベータ分布のプロパティをよく見ると、その平均とモードは、パラメータpとは無関係のとによってのみ決定される $\alpha$ $\beta$ ことがわかります。これは、その柔軟性と相まって、ベータ版が通常、優先度として使用される理由です。

— ジョン・リー
ソース

1

概要：ベータ版の配布は、ディストリビューションの配布であるとよく言われます！しかし、どういう意味ですか？

これは本質的にを修正し、を関数として考えることができることを意味します。何以下の計算は、と言うことの価値ことであるから増加へ際にチューニングからへ。各々における増加率正確であるその時。 $n,k$ $\mathbb P[Bin(n,p)\geqslant k]$ $p$ $\mathbb P[Bin(n,p)\geqslant k]$ $0$ $1$ $p$ $0$ $1$ $p$ $\beta(k,n-k+1)$ $p$

LET有する二項確率変数示すサンプルと成功の確率。基本代数を使用して $Bin(n,p)$ $n$ $p$

\frac{d}{d p} P [B i n (n, p) = i] = n (P [B i n (n - 1, p) = i - 1] - P [B i n (n - 1, p) = i]) .

$\frac d{dp}\mathbb P[Bin(n,p)=i]=n\Big(\mathbb P[Bin(n-1,p)=i-1]-\mathbb P[Bin(n-1,p)=i]\Big).$

また、いくつかの優れた組み合わせの証明もあります。これは演習と考えてください。

だから、私たちは持っています：

\frac{d}{d p} P [B i n (n, p) ⩾ k] = \frac{d}{d p} \sum_{i = k}^{n} P [B i n (n, p) = i] = n (\sum_{i = k}^{n} P [B i n (n - 1, p) = i - 1] - P [B i n (n - 1, p) = i])

$\frac d{dp}\mathbb P[Bin(n,p)\geqslant k]=\frac d{dp}\sum_{i=k}^{n}\mathbb P[Bin(n,p)=i]=n\Big(\sum_{i=k}^{n}\mathbb P[Bin(n-1,p)=i-1]-\mathbb P[Bin(n-1,p)=i]\Big)$ は伸縮式シリーズであり、次のように簡略化できます

\frac{d}{d p} P [B i n (n, p) ⩾ k] = n P [B i n (n - 1, p) = k - 1] = \frac{n!}{(k - 1)! (n - k)!} p^{k - 1} (1 - p)^{n - k} = β (k, n - k + 1) .

$\frac d{dp}\mathbb P[Bin(n,p)\geqslant k]=n\mathbb P[Bin(n-1,p)=k-1]=\frac{n!}{(k-1)!(n-k)!}p^{k-1}(1-p)^{n-k}=\beta(k,n-k+1).$

備考でのプロットの外観のインタラクティブバージョンを確認するには、これを。ノートブックをダウンロードするか、バインダーリンクを使用するだけです。

— MR_BD
ソース