二項確率変数の予測区間

二項確率変数の予測区間の式（近似または正確）は何ですか？

と仮定すると、（から描画）が観測されます。知られています。 $Y \sim \mathsf{Binom}(n, p)$ $y$ $Y$ $n$

私たちの目標は、からの新しいドローの95％の予測間隔を取得することです。 $Y$

ポイント推定値は、ここでです。の信頼区間は簡単ですが、予測区間の公式は見つかりません。（ではなく）を知っていた場合、95％の予測区間は、二項の分位数を見つけることだけを含みます。私が見落としている明らかなものはありますか？ $n\hat{p}$ $\hat{p}=\frac{y}{n}$ $\hat{p}$ $Y$ $p$ $\hat{p}$

confidence-interval binomial prediction-interval

— スタットシーカー
ソース

参照してください非ベイズ法は、予測推論にありますか？。この場合、ピボットを使用する方法は使用できません（私は思いません）が、予測尤度の1つを使用できます。または、もちろん、ベイジアンアプローチ。

— Scortchi-モニカの復職

こんにちはみんな、私は提起された懸念に対処するために時間を割いたいと思います。-pの自信について：私はそのことに興味がありません。-分布の95％である予測に関して：はい、それはまさに予測間隔がコンテキストに関係なく何であるか（回帰では、信頼区間がCLTに依存するため、通常のエラーを仮定する必要があります-はい、ヘッド数の予測の例コインフリップは正しいです。この問題を難しくしているのは、「p」ではなく、見積もりがあることです。

— Statseeker

@Addison G. HahnおよびW. Meekerによる書籍Statistics Intervalsを読んでください。それらは、信頼区間、予測区間、許容区間、ベイジアン信頼区間の違いを説明します。95％の予測間隔には、分布の95％は含まれません。最も頻度の高い間隔が行うことを行います。B（n、p）から繰り返しサンプリングし、毎回同じメソッドを使用してpの95％の予測区間を生成すると、予測区間の95％にpの真の値が含まれます。分布の95％をカバーする場合は、許容区間を作成します。

— マイケルR.チャーニック

許容間隔は、分布の割合をカバーします。分布の90％の95％の許容範囲では、プロセスを何度も繰り返し、毎回同じ方法を使用して間隔を生成します。その後、約95％の場合、分布の少なくとも90％が間隔に収まります分布の90％未満の時間の5％が間隔に含まれます。

— マイケルR.チェルニック

無法＆Fredette（2005）、「Frequentist予測区間と予測分布」、Biometrika、92、3は Iで与えたリンクでのものに加えて、別の良好な基準です。

— Scortchi -復活モニカ

OK、これを試してみましょう。私は2つの答えを与えます-私の意見では単純で自然なベイジアンのものと、可能性のある頻繁なものの1つです。

ベイジアン解

我々は、上のベータ前想定、I、すなわち、、ベータ二項モデルは事後分布も有するベータ分布であることを意味するコンジュゲートであるためのパラメータ、（私が使用しているに成功回数を示すためにの代わりに、試験）。したがって、推論は大幅に簡素化されます。さて、あなたがの可能性のある値に関する事前知識を持っている場合 $p$ $p \sim Beta(\alpha,\beta)$ $\hat{\alpha}=\alpha+k,\hat{\beta}=\beta+n-k$ $k$ $n$ $y$ 、これを使用しておよび値を設定できます。つまり、ベータ事前を定義します。そうでない場合は、または他の非有益な事前の均一（非情報）事前を想定できます（ここを参照））。いずれにしても、後部は $p$ $\alpha$ $\beta$ $\alpha=\beta=1$

$Pr(p|n,k)=Beta(\alpha+k,\beta+n-k)$

ベイジアン推論では、重要なのは事後確率のみです。つまり、一度知ってしまえば、モデル内の他のすべての量について推論することができます。オブザーバブル推論を行います。特に、新しい結果のベクトル、ここでは必ずしもと等しいとは限りません。具体的には、各、我々は正確に有する確率を計算したい次で成功私たちが得たことを考えると、試験の $y$ $\mathbf{y}=y_1,\dots,y_m$ $m$ $n$ $j=0,\dots,m$ $j$ $m$ $k$ 先行する回の試行の成功。事後予測質量関数： $n$

ただし、二項モデルは、特定の値を持つを条件として、回の試行で成功する確率は過去の結果に依存しないことを意味します。 $Y$ $p$ $j$ $m$

$f(j|m,p)=\binom{j}{m} p^j(1-p)^j$

したがって、式は

$Pr(j|m,n,k)=\int_0^1 \binom{j}{m} p^j(1-p)^j Pr(p|n,k)dp=\int_0^1 \binom{j}{m} p^j(1-p)^j Beta(\alpha+k,\beta+n-k)dp$

この積分の結果は、ベータ二項分布と呼ばれる既知の分布です。パッセージをスキップすると、恐ろしい表現が得られます

$Pr(j|m,n,k)=\frac{m!}{j!(m-j)!}\frac{\Gamma(\alpha+\beta+n)}{\Gamma(\alpha+k)\Gamma(\beta+n-k)}\frac{\Gamma(\alpha+k+j)\Gamma(\beta+n+m-k-j)}{\Gamma(\alpha+\beta+n+m)}$

二次損失が与えられたポイント推定は、もちろんこの分布の平均です。 $j$

$\mu=\frac{m(\alpha+k)}{(\alpha+\beta+n)}$

それでは、予測間隔を探しましょう。これは離散分布であるので、我々はのための閉じた形の式を有していない、その結果、。その理由は、分位の定義方法に応じて、離散分布の場合、分位関数は関数ではないか、不連続な関数であるためです。しかし、これは大きな問題ではありませんが小さい場合、確率 $[j_1,j_2]$ $Pr(j_1\leq j \leq j_2)= 0.95$ $m$ $m$ と、ここから検索、その結果 $Pr(j=0|m,n,k),Pr(j\leq 1|m,n,k),\dots,Pr(j \leq m-1|m,n,k)$ $j_1,j_2$

$Pr(j_1\leq j \leq j_2)=Pr(j\leq j_2|m,n,k)-Pr(j < j_1|m,n,k)\geq 0.95$

もちろん、複数のカップルを見つけることができるので、理想的には上記が満たされるような最小の探します。ご了承ください $[j_1,j_2]$

$Pr(j=0|m,n,k)=p_0,Pr(j\leq 1|m,n,k)=p_1,\dots,Pr(j \leq m-1|m,n,k)=p_{m-1}$

は、ベータ二項分布のCMF（累積質量関数）の値であり、閉じた形式の表現がありますが、これは一般化された超幾何関数の観点であり、したがって非常に複雑です。むしろ、RパッケージextraDistrをインストールして呼び出しpbbinomて、ベータ二項分布のCMFを計算するだけです。具体的には、すべての確率を一度に計算する場合は、次のように記述します。 $p_0,\dots,p_{m-1}$

library(extraDistr)  
jvec <- seq(0, m-1, by = 1) 
probs <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)

ここでalphaおよびbetaは、ベータ事前のパラメーターの値、つまり、および（したがって、よりも均一な事前を使用している場合は1 ）です。もちろん、RがBeta-Binomial分布の分位数関数を提供すれば、それはすべてずっと簡単になりますが、残念ながらそうではありません。 $\alpha$ $\beta$ $p$

ベイジアンソリューションを使用した実用例

ましょう、（したがって、我々は最初に100回の試験で70人の成功を観察しました）。次の回の試行における成功数ポイント推定と95％予測間隔が必要です。それから $n=100$ $k=70$ $j$ $m=20$

n <- 100
k <- 70
m <- 20
alpha <- 1
beta  <- 1

ここで、均一な事前を仮定しました。特定のアプリケーションの事前知識に応じて、これは良い事前である場合とそうでない場合があります。かくして $p$

bayesian_point_estimate <- m * (alpha + k)/(alpha + beta + n) #13.92157

明らかに非整数推定は意味をなさないため、最も近い整数（14）に丸めることができます。次に、予測間隔について： $j$

jvec <- seq(0, m-1, by = 1)
library(extraDistr)
probabilities <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)

確率は

> probabilities
 [1] 1.335244e-09 3.925617e-08 5.686014e-07 5.398876e-06
 [5] 3.772061e-05 2.063557e-04 9.183707e-04 3.410423e-03
 [9] 1.075618e-02 2.917888e-02 6.872028e-02 1.415124e-01
[13] 2.563000e-01 4.105894e-01 5.857286e-01 7.511380e-01
[17] 8.781487e-01 9.546188e-01 9.886056e-01 9.985556e-01

間隔等しいテール確率のために、我々は最小たいようと最も大きいよう $j_2$ $Pr(j\leq j_2|m,n,k)\ge 0.975$ $j_1$ 。このようにして、 $Pr(j < j_1|m,n,k)=Pr(j \le j_1-1|m,n,k)\le 0.025$

$Pr(j_1\leq j \leq j_2|m,n,k)=Pr(j\leq j_2|m,n,k)-Pr(j < j_1|m,n,k)\ge 0.975-0.025=0.95$

したがって、上記の確率を見ると、およびであることがわかります。このベイジアン予測間隔の確率は0.9778494で、0.95より大きいです。我々は、短い間隔がそのようなことを見つけることができる、その場合に、テール確率のための2つの不等式の少なくとも一方が満たされないであろう。 $j_2=18$ $j_1=9$ $Pr(j_1\leq j \leq j_2|m,n,k)\ge 0.95$

頻度の高いソリューション

Krishnamoorthy and Peng、2011の治療法に従います。LET 及び独立Binominally配布すること。私たちは望んのための予測区間の観察に基づいて、。つまり、 $Y\sim Binom(m,p)$ $X\sim Binom(n,p)$ $1-2\alpha-$ $Y$ $X$ 、その結果： $I=[L(X;n,m,\alpha),U(X;n,m,\alpha)]$

$Pr_{X,Y}(Y\in I)=Pr_{X,Y}(L(X;n,m,\alpha)\leq Y\leq U(X;n,m,\alpha)]\geq 1-2\alpha$

「」我々は、離散確率変数を扱っているので、私たちは、正確なカバレッジを得ることを期待することができないことに起因している...しかし、我々は常に、少なくとも名目上のカバレッジを持っている区間を探すことができます、したがって保守的な間隔。今、それはの条件付き分布することを証明することができる与えられたサンプルサイズと超幾何ある、集団における成功の数と集団サイズ。したがって、条件付きpmfは $\geq 1-2\alpha$ $X$ $X+Y=k+j=s$ $s$ $n$ $n+m$

$Pr(X=k|X+Y=s,n,n+m)=\frac{\binom{n}{k}\binom{m}{s-k}}{\binom{m+n}{s}}$

条件CDF 所与このようです $X$ $X+Y=s$

$Pr(X\leq k|s,n,n+m)=H(k;s,n,n+m)=\sum_{i=0}^k\frac{\binom{n}{i}\binom{m}{s-i}}{\binom{m+n}{s}}$

The first great thing about this CDF is that it doesn't depend on $p$ , which we don't know. The second great thing is that it allows to easily find our PI: as a matter of fact, if we observed a value $k$ of X, then the $1-\alpha$ lower prediction limit is the smallest integer $L$ such that

$Pr(X\geq k|k+L,n,n+m)=1-H(k-1;k+L,n,n+m)>\alpha$

correspondingly, the the $1-\alpha$ upper prediction limit is the largest integer such that

$Pr(X\leq k|k+U,n,n+m)=H(k;k+U,n,n+m)>\alpha$

Thus, $[L,U]$ is a prediction interval for $Y$ of coverage at least $1-2\alpha$ . Note that when $p$ is close to 0 or 1, this interval is conservative even for large $n$ , $m$ , i.e., its coverage is quite larger than $1-2\alpha$ .

Practical example with the Frequentist solution

Same setting as before, but we don't need to specify $\alpha$ and $\beta$ (there are no priors in the Frequentist framework):

n <- 100
k <- 70
m <- 20

The point estimate is now obtained using the MLE estimate for the probability of successes, $\hat{p}=\frac{k}{n}$ , which in turns leads to the following estimate for the number of successes in $m$ trials:

frequentist_point_estimate <- m * k/n #14

For the prediction interval, the procedure is a bit different. We look for the largest $U$ such that $Pr(X\leq k|k+U,n,n+m)=H(k;k+U,n,n+m)>\alpha$ , thus let's compute the above expression for all $U$ in $[0,m]$ :

jvec <- seq(0, m, by = 1)
probabilities <- phyper(k,n,m,k+jvec)

We can see that the largest $U$ such that the probability is still larger than 0.025 is

jvec[which.min(probabilities > 0.025) - 1] # 18

Same as for the Bayesian approach. The lower prediction bound $L$ is the smallest integer such that $Pr(X\geq k|k+L,n,n+m)=1-H(k-1;k+L,n,n+m)>\alpha$ , thus

probabilities <- 1-phyper(k-1,n,m,k+jvec)
jvec[which.max(probabilities > 0.025) - 1] # 8

Thus our frequentist "exact" prediction interval is $[L,U]=[8,18]$ .

— DeltaIV
ソース