二項設定の下での成功の将来の割合の予測間隔


9

二項回帰を当てはめ、回帰係数の点推定と分散共分散行列を取得するとします。これにより、将来の実験で期待される成功の割合 CIを取得できますが、観測された割合のCIが必要です。シミュレーション(私はそれをしたくないと思う)やKrishnamoorthya et al(私の質問には完全には答えていません)へのリンクなど、いくつかの関連する回答が投稿されています。p

私の推論は次のとおりです:二項モデルだけを使用する場合、は(対応するWald CIを使用して)正規分布からサンプリングされると仮定する必要があるため、閉じた形式で観測された比率のCIを取得することは不可能です。がベータ分布からサンプリングされると仮定すると、成功数はベータ二項分布に従うため、状況ははるかに簡単です。推定ベータパラメーターおよび不確実性がないと仮定する必要があります。ppαβ

3つの質問があります。

1)理論的なもの:ベータパラメータのポイント推定値のみを使用しても問題ありませんか?多重線形回帰で将来の観測のためにCIを構築することを知っています

Y=xβ+ϵ,ϵN(0,σ2)

彼らはそのwrtエラー項分散ます。正当化の理由は、実際にはは回帰係数よりもはるかに高い精度で推定され、不確実性を取り入れようとしてもあまり利益が得られないということです。。同様の根拠は、推定されたベータパラメータと当てはまりますか?σ2σ2σ2αβ

2)どのパッケージの方が優れていますか(R:gamlss-bb、betareg、aod ?; SASにもアクセスできます)。

3)推定されたベータパラメーターを前提として、将来の成功の数、またはさらに良いことに、ベータ二項分布の下での将来の成功の割合の分位数(2.5%、97.5%)を取得する(概算)ショートカットはありますか?


質問1では、はい、これは人々が行うことは有効なことです。これはEmpirical Bayesと呼ばれます。en.wikipedia.org
Paul

1
モデルパラメーターの推定にメソッドXYZを使用しても、将来の観測用のCIを作成するときに推定の不確実性を無視しても問題ないということを自動的に示唆することはできないと思います。たとえば、複数の線形回帰では、EBではなくOLSを使用し、の不確実性も同様に無視されます。何故ですか?また、そのWikiの記事は、EBではトップレベルのハイパーパラメーターの推定の精度が一般に非常に高いため、実際の目的で修正されていると見なしても問題ないことを示唆していません。σ
ジェームズ

1
真の分布の場合、」急激にピークされ、積分が決定はるかに確率分布を置換することによって変化しないことができる点推定値と表します分布のピーク」。それがあなたの場合に当てはまるかどうかは、あなたの問題ドメインの詳細に依存します。のp θ | Y η η *p(ηy)p(θy)ηη
ポール・

2
良い質問!ピボットを取得することはできませんが、プロファイル尤度の使用についてはどうですか?参照してください非ベイズ法は、予測推論にありますか?
Scortchi-モニカの回復

回答:


1

質問には3つの部分すべてを取り上げます。

2つの複雑な問題があります。1つは、この場合の回帰モデルを近似するために使用する方法です。2つ目は、新しい推定値を予測するために、推定値と推定値の間隔を設定する方法です。

応答変数が二項分布である場合、通常はロジスティック回帰またはプロビット回帰(リンク関数として通常のcdfを使用したglm)のいずれかを使用します。

ロジスティック回帰を行う場合、観測されたカウントを既知の上限、つまり割った比率になるように応答を取ります。次に、予測子/共変量を取り、これらをglm関数へのR呼び出しに入れます。返されたオブジェクトには、残りの計算を行うために必要なものがすべて含まれています。 yi/ni

x<- rnorm(100, sd=2)
prob_true <- 1/(1+exp(-(1+5*x)))
counts <- rbinom(100, 50,prob_true)
print(d.AD <- data.frame(counts,x))
glm.D93 <- glm(counts/50 ~ x, family = binomial() )

以下のために線形回帰モデル予測区間のための式であります:

y^i±tnpsy1+1n+(xix¯)2(n1)sx2

線形回帰モデルをglmの近似として使用できます。これを行うには、逆リンク変換を実行して確率を0-1スケールに戻す前に、予測子の線形結合の線形回帰式を使用します。これを行うコードは、predict.glm()R関数に組み込まれています。これも素晴らしいプロットを作成するコードの例です。(編集:このコードは信頼区間用であり、予測区間用ではありません)

y_hat <- predict(glm.D93, type="link", se.fit=TRUE)
t_np<- qt(.975, 100-2, ncp=0)

ub <- y_hat$fit + t_np * y_hat$se.fit
lb <- y_hat$fit - t_np * y_hat$se.fit

point <- y_hat$fit

p_hat <- glm.D93$family$linkinv(point)
p_hat_lb <- glm.D93$family$linkinv(lb)
p_hat_ub <- glm.D93$family$linkinv(ub)

plot(x,p_hat)
points(x, p_hat_ub, col='red')
points(x, p_hat_lb, col='blue')

ポアソン、逆ガウス、ガンマなど、どのglmでも同じことを実行できます。それぞれの場合で、予測区間の線形結合のスケールで予測区間を実行します。予測区間の2つのエンドポイントを取得したら、インバースリンクを介してこれらのエンドポイントを変換します。それぞれのGLMについて、インバースリンクは、ここで記述したロジットのケースとは異なる場合があると述べました。お役に立てれば。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.