二項確率変数の予測区間


13

二項確率変数の予測区間の式(近似または正確)は何ですか?

と仮定すると、(から描画)が観測されます。知られています。Y Y NYBinom(n,p)yYn

私たちの目標は、からの新しいドローの95%の予測間隔を取得することです。Y

ポイント推定値は、ここでです。の信頼区間は簡単ですが、予測区間の公式は見つかりません。(ではなく)を知っていた場合、95%の予測区間は、二項の分位数を見つけることだけを含みます。私が見落としている明らかなものはありますか?、P = Ynp^P YP Pp^=ynp^Ypp^


1
参照してください非ベイズ法は、予測推論にありますか?。この場合、ピボットを使用する方法は使用できません(私は思いません)が、予測尤度の1つを使用できます。または、もちろん、ベイジアンアプローチ。
Scortchi-モニカの復職

1
こんにちはみんな、私は提起された懸念に対処するために時間を割いたいと思います。-pの自信について:私はそのことに興味がありません。-分布の95%である予測に関して:はい、それはまさに予測間隔がコンテキストに関係なく何であるか(回帰では、信頼区間がCLTに依存するため、通常のエラーを仮定する必要があります-はい、ヘッド数の予測の例コインフリップは正しいです。この問題を難しくしているのは、「p」ではなく、見積もりがあることです。
Statseeker

3
@Addison G. HahnおよびW. Meekerによる書籍Statistics Intervalsを読んでください。それらは、信頼区間、予測区間、許容区間、ベイジアン信頼区間の違いを説明します。95%の予測間隔には、分布の95%は含まれません。最も頻度の高い間隔が行うことを行います。B(n、p)から繰り返しサンプリングし、毎回同じメソッドを使用してpの95%の予測区間を生成すると、予測区間の95%にpの真の値が含まれます。分布の95%をカバーする場合は、許容区間を作成します。
マイケルR.チャーニック

許容間隔は、分布の割合をカバーします。分布の90%の95%の許容範囲では、プロセスを何度も繰り返し、毎回同じ方法を使用して間隔を生成します。その後、約95%の場合、分布の少なくとも90%が間隔に収まります分布の90%未満の時間の5%が間隔に含まれます。
マイケルR.チェルニック

3
無法&Fredette(2005)、「Frequentist予測区間と予測分布」、Biometrika92、3は Iで与えたリンクでのものに加えて、別の良好な基準です。
Scortchi -復活モニカ

回答:


22

OK、これを試してみましょう。私は2つの答えを与えます-私の意見では単純で自然なベイジアンのものと、可能性のある頻繁なものの1つです。

ベイジアン解

我々は、上のベータ前想定、I、すなわち、P BのE T α β 、ベータ二項モデルは事後分布も有するベータ分布であることを意味するコンジュゲートであるためのパラメータα = α + K β = β + N - K、(私が使用しているKのに成功回数を示すために、Nの代わりに、試験Y)。したがって、推論は大幅に簡素化されます。さて、あなたがの可能性のある値に関する事前知識を持っている場合ppBeta(α,β)α^=α+k,β^=β+nkkny、これを使用して αおよび βの値を設定できます。つまり、ベータ事前を定義します。そうでない場合は、 α = β = 1または他の非有益な事前の均一(非情報)事前を想定できます(ここを参照))。いずれにしても、後部はpαβα=β=1

Pr(p|n,k)=Beta(α+k,β+nk)

ベイジアン推論では、重要なのは事後確率のみです。つまり、一度知ってしまえば、モデル内の他のすべての量について推論することができます。オブザーバブル推論を行います。特に、新しい結果のベクトルy = y 1y mで、ここでmは必ずしもnと等しいとは限りません。具体的には、各J = 0 ... M、我々は正確に有する確率を計算したいjは次で成功メートルの私たちが得たことを考えると、試験のkはyy=y1,,ymmnj=0,,mjmk先行する回の試行の成功。事後予測質量関数:n

Pr(j|m,y)=Pr(j|m,n,k)=01Pr(j,p|m,n,k)dp=01Pr(j|p,m,n,k)Pr(p|n,k)dp

ただし、二項モデルは、特定の値を持つpを条件として、m回の試行でj回成功する確率は過去の結果に依存しないことを意味します。Ypjm

fj|mp=jmpj1pj

したがって、式は

Prj|mnk=01jmpj1pjPrp|nkdp=01jmpj1pjBetaα+kβ+nkdp

この積分の結果は、ベータ二項分布と呼ばれる既知の分布です。パッセージをスキップすると、恐ろしい表現が得られます

Pr(j|m,n,k)=m!j!(mj)!Γ(α+β+n)Γ(α+k)Γ(β+nk)Γ(α+k+j)Γ(β+n+mkj)Γ(α+β+n+m)

二次損失が与えられたポイント推定は、もちろんこの分布の平均です。j

μ=m(α+k)(α+β+n)

それでは、予測間隔を探しましょう。これは離散分布であるので、我々はのための閉じた形の式を有していない、その結果、P R J 1J J 2= 0.95。その理由は、分位の定義方法に応じて、離散分布の場合、分位関数は関数ではないか、不連続な関数であるためです。しかし、これは大きな問題ではありません。mが小さい場合、m個の確率P r j = 0[j1,j2]Pr(j1jj2)=0.95mmと、ここから検索 J 1J 2、その結果Pr(j=0|m,n,k),Pr(j1|m,n,k),,Pr(jm1|m,n,k)j1,j2

Pr(j1jj2)=Pr(jj2|m,n,k)Pr(j<j1|m,n,k)0.95

もちろん、複数のカップルを見つけることができるので、理想的には上記が満たされるような最小の探します。ご了承ください[j1,j2]

Pr(j=0|m,n,k)=p0,Pr(j1|m,n,k)=p1,,Pr(jm1|m,n,k)=pm1

は、ベータ二項分布のC​​MF(累積質量関数)の値であり、閉じた形式の表現がありますが、これは一般化された超幾何関数の観点であり、したがって非常に複雑です。むしろ、RパッケージextraDistrをインストールして呼び出しpbbinomて、ベータ二項分布のC​​MFを計算するだけです。具体的には、すべての確率を一度に計算する場合は、次のように記述します。p0,,pm1

library(extraDistr)  
jvec <- seq(0, m-1, by = 1) 
probs <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)

ここでalphaおよびbetaは、ベータ事前のパラメーターの値、つまり、およびβ(したがって、pよりも均一な事前を使用している場合は1 )です。もちろん、RがBeta-Binomial分布の分位数関数を提供すれば、それはすべてずっと簡単になりますが、残念ながらそうではありません。αβp

ベイジアンソリューションを使用した実用例

ましょうK = 70(したがって、我々は最初に100回の試験で70人の成功を観察しました)。次のm = 20回の試行における成功数jのポイント推定と95%予測間隔が必要です。それからn=100k=70jm=20

n <- 100
k <- 70
m <- 20
alpha <- 1
beta  <- 1

ここで、均一な事前を仮定しました。特定のアプリケーションの事前知識に応じて、これは良い事前である場合とそうでない場合があります。かくしてp

bayesian_point_estimate <- m * (alpha + k)/(alpha + beta + n) #13.92157

明らかに非整数推定は意味をなさないため、最も近い整数(14)に丸めることができます。次に、予測間隔について:j

jvec <- seq(0, m-1, by = 1)
library(extraDistr)
probabilities <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)

確率は

> probabilities
 [1] 1.335244e-09 3.925617e-08 5.686014e-07 5.398876e-06
 [5] 3.772061e-05 2.063557e-04 9.183707e-04 3.410423e-03
 [9] 1.075618e-02 2.917888e-02 6.872028e-02 1.415124e-01
[13] 2.563000e-01 4.105894e-01 5.857286e-01 7.511380e-01
[17] 8.781487e-01 9.546188e-01 9.886056e-01 9.985556e-01

間隔等しいテール確率のために、我々は最小たいようPのR J J 2 | M N K 0.975と最も大きいJ 1ようPのR J < J 1 | mはn個K = P R J J 1 - 1 | M N Kj2Pr(jj2|m,n,k)0.975j1。このようにして、Pr(j<j1|m,n,k)=Pr(jj11|m,n,k)0.025

Pr(j1jj2|m,n,k)=Pr(jj2|m,n,k)Pr(j<j1|m,n,k)0.9750.025=0.95

したがって、上記の確率を見ると、およびj 1 = 9であることがわかります。このベイジアン予測間隔の確率は0.9778494で、0.95より大きいです。我々は、短い間隔がそのようなことを見つけることができるPのR J 1J J 2 | M N K 0.95、その場合に、テール確率のための2つの不等式の少なくとも一方が満たされないであろう。j2=18j1=9Pr(j1jj2|m,n,k)0.95

頻度の高いソリューション

Krishnamoorthy and Peng、2011の治療法に従います。LET 及びX B I 、N 、O 、M N Pは独立Binominally配布すること。私たちは望ん1 - 2 α -のための予測区間Yの観察に基づいて、Xを。つまり、I = [ L X ; nYBinom(m,p)XBinom(n,p)12αYX、その結果:I=[L(X;n,m,α),U(X;n,m,α)]

PrX,Y(YI)=PrX,Y(L(X;n,m,α)YU(X;n,m,α)]12α

」我々は、離散確率変数を扱っているので、私たちは、正確なカバレッジを得ることを期待することができないことに起因している...しかし、我々は常に、少なくとも名目上のカバレッジを持っている区間を探すことができます、したがって保守的な間隔。今、それはの条件付き分布することを証明することができるXが与えられたX + Y = K + J = Sは、サンプルサイズと超幾何あるS、集団における成功の数Nと集団サイズN + M。したがって、条件付きpmfは12αXX+Y=k+j=ssnn+m

Pr(X=k|X+Y=s,n,n+m)=(nk)(msk)(m+ns)

条件CDF 所与X + Y = SはこのようですXX+Y=s

Pr(Xk|s,n,n+m)=H(k;s,n,n+m)=i=0k(ni)(msi)(m+ns)

The first great thing about this CDF is that it doesn't depend on p, which we don't know. The second great thing is that it allows to easily find our PI: as a matter of fact, if we observed a value k of X, then the 1α lower prediction limit is the smallest integer L such that

Pr(Xk|k+L,n,n+m)=1H(k1;k+L,n,n+m)>α

correspondingly, the the 1α upper prediction limit is the largest integer such that

Pr(Xk|k+U,n,n+m)=H(k;k+U,n,n+m)>α

Thus, [L,U] is a prediction interval for Y of coverage at least 12α. Note that when p is close to 0 or 1, this interval is conservative even for large n, m, i.e., its coverage is quite larger than 12α.

Practical example with the Frequentist solution

Same setting as before, but we don't need to specify α and β (there are no priors in the Frequentist framework):

n <- 100
k <- 70
m <- 20

The point estimate is now obtained using the MLE estimate for the probability of successes, p^=kn, which in turns leads to the following estimate for the number of successes in m trials:

frequentist_point_estimate <- m * k/n #14

For the prediction interval, the procedure is a bit different. We look for the largest U such that Pr(Xk|k+U,n,n+m)=H(k;k+U,n,n+m)>α, thus let's compute the above expression for all U in [0,m]:

jvec <- seq(0, m, by = 1)
probabilities <- phyper(k,n,m,k+jvec)

We can see that the largest U such that the probability is still larger than 0.025 is

jvec[which.min(probabilities > 0.025) - 1] # 18

Same as for the Bayesian approach. The lower prediction bound L is the smallest integer such that Pr(Xk|k+L,n,n+m)=1H(k1;k+L,n,n+m)>α, thus

probabilities <- 1-phyper(k-1,n,m,k+jvec)
jvec[which.max(probabilities > 0.025) - 1] # 8

Thus our frequentist "exact" prediction interval is [L,U]=[8,18].

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.