ベルヌーイ確率変数ランダムサンプルがありますで、はiidrvで、で、は不明なパラメーターです。X i P (X i = 1 )= p p
明らかに、一つの推定値を見つけることができ:。P:= (X 1 + ⋯ + X N)/ N
私の質問は、信頼区間をどのように構築できますか?
ベルヌーイ確率変数ランダムサンプルがありますで、はiidrvで、で、は不明なパラメーターです。X i P (X i = 1 )= p p
明らかに、一つの推定値を見つけることができ:。P:= (X 1 + ⋯ + X N)/ N
私の質問は、信頼区間をどのように構築できますか?
回答:
場合、平均はなく、近くでまたは、及びサンプルサイズ、すなわち(十分に大きい及び、自信区間は正規分布と次のように構築された信頼区間によって推定できます。 10NN P >5N(1 - P)>5
もし 及び、信頼区間が約ある(Javanovicとレヴィ、1997) 。場合は逆です。このリファレンスでは、および使用についても説明しています(前の情報を組み込むために後者)。、N>3095%[0、3 、N+1、N+B
他の ウィキペディアでは、通常の近似、ウィルソンスコア、クロッパーピアソン、またはアグレスティクール間隔以外の推定値の使用に関する詳細について、優れた概要とAgresti and Couli(1998)およびRoss(2003)のポイントを提供しています。上記のおよび仮定が満たされない場合、これらはより正確になる可能性があります。のp
Rは機能binconf {Hmisc}
を提供binom.confint {binom}
し、次の方法で使用できます。
set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')
アグレスティ、アラン; Coull、Brent A.(1998)。「二項比率の区間推定では、近似は「正確」よりも優れています」。アメリカ統計学者52:119-126。
Jovanovic、BDおよびPS Levy、1997年。3つの規則を見てください。アメリカ統計学集 51、No. 2、pp。137-139
ロス、TD(2003)。「二項比率とポアソン率推定の正確な信頼区間」。生物学と医学のコンピューター33:509–531。
ベルヌーイ標本への通常の近似は、比較的大きな標本サイズと尾から遠く離れた標本の割合を持つことに依存しています。最尤推定では、対数変換されたオッズに焦点が当てられ、これにより、代わりに使用されるべき非対称で効率的な間隔が提供されます。
log-oddsをとして定義します
1- CI は次のように与えられます:
そして、これは(非対称)区間に逆変換されます:
このCIには、割合が0または1の間隔にあるという追加の利点があり、CIは正しいレベルでありながら常に通常の間隔よりも狭くなります。これをRで非常に簡単に取得するには、次を指定します。
set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))
2.5 % 97.5 %
0.2795322 0.4670450
小さなサンプルでは、MLEの正規近似は(サンプルの比率の正規近似よりも優れていますが)信頼できない場合があります。それは大丈夫です。は、二項密度に従うと見なすことができます。境界、この分布から第2.5および97.5番目のパーセンタイルを取る見出すことができます。P
手動ではほとんど不可能ですが、計算方法を使用して正確な二項信頼区間を取得できます。
qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47
また、が正確に0または1の場合、中央値不偏推定量を使用して、中央値不偏確率関数に基づいて非特異区間推定値を取得できます。すべて0の場合の下限を0 WLOGとして取ることができます。上限は、次の条件を満たす任意の割合です。
これも計算ルーチンです。
set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
0.5*dbinom(0, 100, p) +
pbinom(1, 100, p, lower.tail = F) -
0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)
[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability
最後の2つのメソッドはepitools
、R のパッケージに実装されています。