二項分布の平均を推定するときにpの不確実性を考慮する

パラメータ付きの二項分布があります $N$ そして $p$ 、そして私の分布の平均の推定値はNです $\times p$ 。の値 $N$ そして $p$ ガウス近似を使用して $\sigma$ 平均の $\sqrt{(n\times p (1-p)}$ 。問題は、私がすでに推定していることです $p$ 、そう $p$ 実際には、平均がわかっているガウス分布であり、 $\sigma$ 。私の目標は、二項分布の平均の信頼区間を見つけることですが、どのようにして $p$ 考慮に入れますか？

— ヘルガ・ホルメスタッド
ソース

あなたのアプローチにはいくつかの問題があります。最初に、設計されていないものに対して信頼区間を使用する必要があります。もし $p$ 変化する場合、信頼区間はそれがどのように変化するかを示しません。チェック95％信頼区間（CI）が平均を含む95％の確率を意味しないのはなぜですか？信頼区間の詳細については、さらに、Brown et al（2001）で説明されているように、二項比率とその信頼区間に正規近似を使用することは良い考えではありません。

実際、あなたの説明から、ベイジアンの信頼できる間隔、つまり、 $p$ の分布。はい、私はベイジアンと言いました。実際、あなたはすでに問題をベイジアンモデルとして定義しているからです。あなたはあなたがそれを仮定すると言います $p$ 頻度変数の設定であり、頻度主義の設定である $p$ 固定パラメータになります。すでに想定している場合は、データにベイジアンモデルを使用してみませんか？ベータ二項モデルを使用します（Dan NavarroとAmy Perforsによるベータ二項モデルペーパーの紹介も参照）。このような場合、そのようなモデルを推定することは非常に簡単です。次のように定義できます。

X \sim B i n o m i a l (N, p) p \sim B e t a (α, β)

$X \sim \mathrm{Binomial}(N, p) \\ p \sim \mathrm{Beta}(\alpha, \beta)$

だから、あなたのデータ $X$ によってパラメータ化された二項分布に従う $N$ そして $p$ 、どこ $p$ 確率変数です。パラメータ付きのベータ分布を想定 $\alpha$ そして $\beta$ の先例として $p$ 。頻繁な方法を使用したい場合は、配布の可能性について事前の知識がないと思います $p$ 、したがって、次のパラメータ化された「情報のない」事前パラメータを選択します $\alpha = \beta = 1$ 、または $\alpha = \beta = 0.5$ （必要に応じて、これらのパラメーターを平均と精度、または平均と分散に変換できます）。後に更新あなたの前に、事後の分布を $p$ 単にベータ分布でパラメータ化されています

α^{'} = α + total number of successes β^{'} = β + total number of failures

$\alpha' = \alpha + \text{total number of successes} \\ \beta' = \beta + \text{total number of failures}$

平均して

E (X) = N \frac{α^{'}}{α^{'} + β^{'}}

$E(X) = N \frac{\alpha'}{\alpha'+\beta'}$

この分布の他の量の計算の詳細については、ベータ二項分布に関するウィキペディアの記事を確認してください。信頼できる間隔は、（a）ベータ二項分布の累積分布関数を数値で反転するか、（b）ベータ二項分布から多数のランダムな値をサンプリングして、そこからサンプル変位値を計算することにより、数値で計算できます。次の手順を順番に繰り返す必要があるだけなので、2番目のアプローチは非常に簡単です。

ドロー $p$ によってパラメータ化されたベータ分布から $\alpha'$ そして $\beta'$ 、

ドロー $x$ によってパラメータ化された二項分布から $p$ そして $N$ 。

関心のある量を計算するのに自信のあるサンプルを抽出するまで。

もちろん、平均値と標準偏差がわかっている場合 $p$ 正規分布を使用することを主張すると、シミュレーションも使用できますが、正規分布を使用して $p$ 。以下に、そのようなシミュレーションのためのRのコード例を示します。

R <- 1e5                       # number of samples to draw in simulation
N <- 500                       # known N
mu <- 0.3                      # known mean of p
sigma <- 0.07                  # known standard deviation of p
p <- rnorm(R, mu, sigma)       # simulate p
x <- rbinom(R, N, p)           # simulate X
mean(x)                        # estimate for mean of X
quantile(p*N, c(0.025, 0.975)) # 95% interval estimate for variability of E(X)

または、正規累積分布関数の逆関数を使用して適切な分位数を取得し、それらを乗算することもできます $N$ 。ただし、これは信頼区間ではなく、信頼できる区間であることを忘れないでください。

ブラウン、LD、カイ、TT、およびダスグプタ、A（2001）。二項比率の区間推定。統計科学、101-117。

— ティム
ソース

私に答えてくれてありがとう。私にとっては、2番目のアプローチが最も有用だと思います。ベイジアン統計の経験はありませんので、それとベータ分布についてもう少し読む必要があります。2番目のアプローチのステップ1について1つだけ質問があります。pの知っている分布からではなく、なぜベータ分布から引き出すのですか？

— Helga Holmestad 16年

@HelgaHolmestadは、pがベータ分布からのものであると想定するためです;）ベータは、pよりもはるかに優れたpの分布です。正規分布は[0,1]で囲まれています

- \infty

$-\infty$ に

+ \infty

$+\infty$ 。さらに、何らかの理由でpの平均と分散が事前にわかっている場合でも、すでに知っている平均と分散に対応するベータのパラメーターを簡単に見つけることができます（stats.stackexchange.com/questions/12232/…を参照）。）。

— Tim