ベルヌーイサンプリングの信頼区間


42

ベルヌーイ確率変数ランダムサンプルがありますで、はiidrvで、で、は不明なパラメーターです。X i P X i = 1 = p pX1...XNXiP(Xi=1)=pp

明らかに、一つの推定値を見つけることができ:。P= X 1 + + X N/ Npp^:=(X1++XN)/N

私の質問は、信頼区間をどのように構築できますか?p


2
ウィキペディアには、ベルヌーイサンプリングの信頼区間の計算方法に関する詳細が記載されています。

回答:


52
  • 場合、平均はなく、近くでまたは、及びサンプルサイズ、すなわち(十分に大きい及び、自信区間は正規分布と次のように構築された信頼区間によって推定できます。 10NN P >5N1 - P>5p^10nnp^>5n(1p^)>5

    p^±z1α/2p^(1p^)n
  • もし 及び、信頼区間が約ある(Javanovicとレヴィ、1997) 。場合は逆です。このリファレンスでは、および使用についても説明しています(前の情報を組み込むために後者)。、N>3095[03p^=0n>3095%[0,3n] 、N+1、N+Bp^=1n+1n+b

  • 他の ウィキペディアでは、通常の近似、ウィルソンスコア、クロッパーピアソン、またはアグレスティクール間隔以外の推定値の使用に関する詳細について、優れた概要とAgresti and Couli(1998)およびRoss(2003)のポイントを提供しています。上記のおよび仮定が満たされない場合、これらはより正確になる可能性があります。のpnp^

Rは機能binconf {Hmisc}を提供binom.confint {binom}し、次の方法で使用できます。

set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')

アグレスティ、アラン; Coull、Brent A.(1998)。「二項比率の区間推定では、近似は「正確」よりも優れています」。アメリカ統計学者52:119-126。

Jovanovic、BDおよびPS Levy、1997年。3つの規則を見てください。アメリカ統計学集 51、No. 2、pp。137-139

ロス、TD(2003)。「二項比率とポアソン率推定の正確な信頼区間」。生物学と医学のコンピューター33:509–531。


3
(+1)いい答えです。これは、将来同様の質問の参考になると思います。ただし、クロスポストはまれです。実際、フィードバック/参照/スレッディング/コメントシステムの多くの側面を台無しにしてしまうので、私はそれが眉をひそめていると信じています。コピーの1つを削除し、コメント内のリンクで置き換えることを検討してください。
whuber

@whuberフィードバックをありがとう。他のコピーを削除しました。
デビッドルバウアー

最初の式では、z1とalphaは何ですか?
チルデ

私は自分の質問に対する答えを見つけましたは標準正規分布のパーセンタイルで、はエラーパーセンタイルです。en.wikipedia.org/wiki/Binomial_proportion_confidence_interval 1 - α / 2 αz1α/21α/2α
Cirdec

2番目の箇条書きの信頼区間では、である必要がありますか?3/n
フアンA.ナバロ

7

最尤信頼区間

ベルヌーイ標本への通常の近似は、比較的大きな標本サイズと尾から遠く離れた標本の割合を持つことに依存しています。最尤推定では、対数変換されたオッズに焦点が当てられ、これにより、代わりに使用されるべき非対称で効率的な間隔が提供されます。p

log-oddsをとして定義しますβ^0=log(p^/(1p^))

1- CI は次のように与えられます:αβ0

CI(β0)α=β^0±Zα/21/(np^(1p^)

そして、これは(非対称)区間に逆変換されます:p

CI(p)α=1/(1+exp(CI(β0)α)

このCIには、割合が0または1の間隔にあるという追加の利点があり、CIは正しいレベルでありながら常に通常の間隔よりも狭くなります。これをRで非常に簡単に取得するには、次を指定します。

set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))

    2.5 %    97.5 % 
0.2795322 0.4670450 

正確な二項信頼区間

小さなサンプルでは、​​MLEの正規近似は(サンプルの比率の正規近似よりも優れていますが)信頼できない場合があります。それは大丈夫です。は、二項密度に従うと見なすことができます。境界、この分布から第2.5および97.5番目のパーセンタイルを取る見出すことができます。Y=np^(n,p)Pp^

CIα=(Fp^1(0.025),Fp^1(0.975))

手動ではほとんど不可能ですが、計算方法を使用して正確な二項信頼区間を取得できます。p

qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47

中央値不偏信頼区間

また、が正確に0または1の場合、中央値不偏推定量を使用して、中央値不偏確率関数に基づいて非特異区間推定値を取得できます。すべて0の場合の下限を0 WLOGとして取ることができます。上限は、次の条件を満たす任意の割合です。pp1α/2

p1α/2:P(Y=0)/2+P(Y>y)>0.975

これも計算ルーチンです。

set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
  0.5*dbinom(0, 100, p) + 
    pbinom(1, 100, p, lower.tail = F) - 
    0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)

[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability

最後の2つのメソッドはepitools、R のパッケージに実装されています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.