2つの比率の比の信頼区間


20

2つの比率(例:コントロールレイアウトのリンクのクリックスルー率(CTR)と実験レイアウトのリンクのCTR)があり、これらの比率の比率について95%の信頼区間を計算したい。

どうすればいいですか?デルタ方式を使用してこの比率の分散を計算できることは知っていますが、それ以外に何をすべきかはわかりません。信頼区間の中間点(観測された比率、または異なる予測比率)として何を使用する必要がありますか?また、この比率の周りの標準偏差をいくつ取る必要がありますか?

デルタ方式の分散を使用する必要がありますか?(私は本当に分散を気にしません、単に信頼区間です。)ケース1 を使用して、Fiellerの定理を使用する必要があります(比率を行っているため、正規分布の要件を満たしていると思います)。ブートストラップサンプルを計算するだけですか?


1
あなたには根本的な問題があります:ほとんどのプロポーションはゼロになるというポジティブな可能性があり、(独立したプロポーションの)比率は未定義になるというポジティブな可能性があります。これにより、近似法(デルタ法など)に深刻な困難が生じる可能性があり、通常の近似法をよりセプセプティックに表示し、通常よりも厳密にテストする必要があることが示唆されます。
whuber

ジョセフ・L・フライス、ブルース・レビン、ミョンヒ・チョ・パイク:レートとプロポーションの統計的方法[1]は、2つのレートの商である相対リスクについて議論しています。私は本を​​持っていないので、主題索引と目次でしか行けませんが、あなたの図書館にはあるかもしれません。[1]:onlinelibrary.wiley.com/book/10.1002/0471445428
cbeleitesはモニカをサポートしています

パーセンタイルブートストラップが最善の方法でしょうか?
ピーターエリス

回答:


19

疫学でこれを行う標準的な方法(比率の比率は通常リスク比と呼ばれます)は、最初に比率を対数変換し、デルタ法を使用して正規分布を仮定して対数スケールで信頼区間を計算します。次に変換します。これは、未変換のスケールでデルタメソッドを使用するよりも中程度のサンプルサイズでうまく機能しますが、いずれかのグループのイベントの数が非常に少ない場合は動作が悪くなり、いずれかのグループにイベントがない場合は完全に失敗します。

存在する場合及びX 2の合計のうちの二つのグループに成功N 1及びN 2は、次に割合の比は明らか推定値であるθ = X 1 / N 1バツ1バツ2n1n2

θ^=バツ1/n1バツ2/n2

デルタ法を用いて2つのグループは独立しており、成功を二項分布している、あなたがあることを示すことができると仮定 これの平方根をとることは、標準誤差与えSE ログθを。仮定すると、ログθが正常に配布され、95%信頼区間ログθ

Var(logθ^)=1/x11/n1+1/x21/n2.
SE(logθ^)logθ^logθある これは比率の比率の95%信頼区間が与える累乗θとしてθのexp [ ± 1.96 SE ログθ]
logθ^±1.96SE(logθ^).
θ
θ^exp[±1.96SE(logθ^)].

5
これは素晴らしい提供作品およびN 2が大きい(数百以上)であり、nは1 、P 1及びN 2 P 2(C。小さすぎない10以上)。そうしないと、間隔が大きくなりすぎる傾向があります。また、ケースx 2 = 0およびx i = n iを処理する方法が必要です。追加:これは、両方の問題が継続訂正のようなアプローチで対処することができ判明1 / 2の両方にX I、追加1をn1n2n1p1n2p210x2=0xi=ni1/2xi1nipini4n

@whuber:「連続修正のようなアプローチ」-特に1/2の使用は一般的なトリックですか?(他の小さな疑似カウントとは対照的です。)あなたがそれを言い表す方法は、何らかの方法で1/2の音を原理的にします=)-そうですか?
レグチン

バツ そして n、他の値は若干良くなります。推定量の分布の理論的研究は、異なる開始値を示唆する場合があります。
whuber

この場合、分散の平方根は標準偏差であり、標準偏差ではないのはなぜですか?
ミッコ

2
@onestopこれはRパッケージに実装されていますか?
ボグダンヴァシレスク
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.