比率の信頼区間を計算する方法は?


12

0と1の間の比率を出力する実験を考えてみましょうXi。この比率がどのように取得されるかは、このコンテキストでは関係ありません。それはこの質問の前のバージョンで詳しく説明されましたが、メタに関する議論の後に明確にするために取り除かれました。

この実験は回繰り返されますが、nは小さい(約3〜10)。Xは、私が独立同一分布すると仮定されます。これらから、我々は平均算出して平均値を推定¯ Xが、どのように対応する信頼区間計算するには、[ U Vを]nnXiX¯[U,V]

信頼区間を計算するための標準的なアプローチを使用する場合、は1より大きい場合があります。しかし、私の直感では、正しい信頼区間は...V

  1. ... 0〜1の範囲内である必要があります
  2. ... nを増やすと小さくなりますn
  3. ...はおおよそ標準的なアプローチを使用して計算されたものの順です
  4. ...数学的に適切な方法で計算されます

これらは絶対的な要件ではありませんが、少なくとも私の直感が間違っている理由を理解したいと思います。

既存の回答に基づいた計算

以下では、既存の回答から得られた信頼区間のために比較される{Xi}={0.985,0.986,0.935,0.890,0.999}

標準アプローチ(別名「学校数学」)

σ2=0.0204は、従って、99%信頼区間である[0.8651.053]。これは直感1と矛盾します。X¯=0.959σ2=0.0204[0.865,1.053]

切り取り(コメントで@soakleyが提案)

ただ、提供その後、標準的なアプローチを使用して結果としては、やることは容易です。しかし、それを行うことは許可されていますか?下限が一定のままであるとはまだ確信していません(-> 4)[0.865,1.000]

ロジスティック回帰モデル(@Rose Hartmanにより提案)

変換されたデータ: で得られた[ 0.173 7.87 ]、で結果をバック変換[ 0.543 0.999を]。明らかに、6.90は変換されたデータの外れ値であり、0.99は変換されていないデータの外れ値であり、非常に大きな信頼区間になります。(-> 3.){4.18,4.25,2.09,2.66,6.90}[0.173,7.87][0.543,0.999]

二項比例信頼区間(@Timで推奨)

アプローチは非常に良いように見えますが、残念ながら実験には適合しません。結果を組み合わせて、@ ZahavaKorで示唆されているように、ベルヌーイの大規模な繰り返し実験として解釈すると、次のようになります。

5のうち 4795 *合計 1000 これをAdjにフィードします。ワルドの計算はできます [ 0.9511 0.9657 ]。単一の X iがその間隔内にないため、これは現実的ではないようです!(-> 3.)985+986+890+935+999=479551000[0.9511,0.9657]Xi

ブートストラップ(@soakleyが推奨)

では私たちは、3125個の可能な順列を持っています。3093を取るn=5順列の真ん中の手段、我々が得る[0.910.99]。それほど悪くはないように見えますが、もっと長い間隔(-> 3)を期待しています。ただし、それは構造ごとではなく、30933125=0.99[0.91,0.99]。したがって、小さなサンプルの場合、 nを増やすと縮小するよりも大きくなります(-> 2.)。これは、少なくとも上記のサンプルで発生することです。[min(Xi),max(Xi)]n


2番目のアプローチは正しいです。最初のものについては確信が持てません-統計用語で明確に述べられていません。私の知る限り、再現性とは、同じ実験が異なる研究者によって実行され、同じ結果が得られることを意味します。できれば推定しようとしているパラメータに関する統計的仮説の観点から、目標をより明確に指定する必要があります。私の意見では、「再現性」という用語を使用するだけではあいまいです。
ザハヴァコル

あなたは正しい、再現性は正しい用語であり、再現性ではありません。統計用語で定義を構築しようとします。
コアロ

@ZahavaKor再現性についての未指定の例を削除し、実際のアプリケーションが問題を明確にし、混乱しないことを期待して実際のアプリケーションを指定しました。
コアロ

サイズ1000のサンプルを本当に取得している場合は、リサンプリングアプローチを正しく適用していません。ただし、そのようなデータがある場合、リサンプリングは不要であり、上で見たように、標準の二項アプローチで良好な結果(つまり、信頼区間が狭い)が得られるはずです。個々のデータポイントが結果の間隔にないからといって、間隔が正しくないわけではありません。
ソークリー

1
さて、これについて考えてください。10個のアイテムをサンプリングし、9回成功します。1000をサンプリングし、900の成功を取得します。誰が平均値のより正確な推定値を取得しますか?直感がまだない場合は、Timが参照する式を使用してみてください。あなたの質問の最後の例では、サンプルサイズは5ではなく、5000です!
soakley

回答:


6

最初に、明確にするために、あなたの質問が示唆するように、あなたが扱っているものは二項分布ではありません(ベルヌーイの実験と呼びます)。二項分布は離散的です。結果は成功または失敗のいずれかです。結果は、実験を実行するたびの比率であり、1つの要約比率を計算する成功と失敗のセットではありません。そのため、二項比例信頼区間を計算する方法では、多くの情報が失われます。それでも、変数の可能な範囲を超えて拡張するCIを取得できるため、これを通常の分布として扱うのは問題だということは正しいです。

ロジスティック回帰の観点からこれについて考えることをお勧めします。結果として比率変数を使用し、予測変数を使用せずにロジスティック回帰モデルを実行します。インターセプトとそのCIは、ロジットで必要なものを提供します。その後、プロポーションに戻すことができます。ロジスティック変換を自分で行い、CIを計算してから元のスケールに戻すこともできます。私のPythonはひどいですが、Rでそれを行う方法は次のとおりです:

set.seed(24601)
data <- rbeta(100, 10, 3)
hist(data)

生データのヒストグラム

data_logits <- log(data/(1-data)) 
hist(data_logits)

ロジット変換データのヒストグラム

# calculate CI for the transformed data
mean_logits <- mean(data_logits)
sd <- sd(data_logits)
n <- length(data_logits)
crit_t99 <- qt(.995, df = n-1) # for a CI99
ci_lo_logits <- mean_logits - crit_t * sd/sqrt(n)
ci_hi_logits <- mean_logits + crit_t * sd/sqrt(n)

# convert back to ratio
mean <- exp(mean_logits)/(1 + exp(mean_logits))
ci_lo <- exp(ci_lo_logits)/(1 + exp(ci_lo_logits))
ci_hi <- exp(ci_hi_logits)/(1 + exp(ci_hi_logits))

これらのデータの99%CIの下限と上限は次のとおりです。

> ci_lo
[1] 0.7738327
> ci_hi
[1] 0.8207924

それは良いアプローチのように聞こえますが、結果は直感的に期待するものではありません:0.99,0.94,0.94のdata_logitsは4.59,2.75,2,75であり、[-2.73,9.47]の信頼区間を与えます。これを元に戻すと、[0.061,0.999]が得られます。これは、予想よりもはるかに大きくなります。
コアロ

1
わずか3回の観測では、非常に大きな信頼区間を期待する必要があります。ヒストグラムから、3つ以上の観測値があるように見えます。実際のサンプルサイズが3である場合、信頼区間をまったく計算することはお勧めしません(または、その意味では手段です)。
ローズハートマン

上記のヒストグラムは、私の問題を説明するためのpythonスクリプトからのものです。実世界の実験からそれほど多くの測定値を取得することはできません。少なくともパラメーターのすべての組み合わせではありません。3は小さすぎる可能性があり、最終評価では10程度になる可能性がありますが、それ以上ではないことに同意します。それで、単一の測定値を取得するだけで幸運だったのではなく、実験を繰り返してもまったく異なる結果が得られないことを示すために、それについてどうすればよいでしょうか?
コアロ

@RoseHartmanこれは明確な説明ですが、質問のデータのサンプル(n = 5)にメソッドが適用されているのを見るのもいいでしょう。
PM。

@scitamehtam koaloがサンプルデータを提供し、サンプルサイズが10個以下の観測値になることを明確にする前に、回答を書きました。それ以来、koaloは元の質問を更新して、n = 5のデータを使用した各回答方法の実例を含むようにしました。
ローズハートマン

3

リサンプリング/ブートストラップを試してください。あなたが言及した簡単なケースを見てみましょう。

0.99、0.94、および0.94の3つのデータポイントでは、27の可能な順列すべてをリストし、それぞれの場合に平均値を見つけてから平均値を並べ替えることができるため、リサンプリングすらしません。

25/27=26/27=

私はあなたを仮定します n

ここでの質問:置換テストのパラメーターの信頼区間を作成する方法は?いくつかのRコードを含む詳細を提供します。


別のコメントに書かれているように、nは「3よりはるかに大きい」わけではありませんが、必要に応じてn = 10が可能です。このアプローチは、私の信頼区間が1.0を超えないことを保証しますが、他の方法で与えられる信頼区間をかなり過小評価するようです。実際、[min、max]間隔より大きくなることはありません。
コアロ

どのくらいの頻度で平均が[最小、最大]の範囲外になると思いますか?
soakley

たぶんめったにありませんが、それはまた、[min、max]間隔が私の主張をサポートすることを証明するのに十分小さい場合、信頼区間を忘れて[min、max]を提供できることを意味しますか?私の経験では、サンプルサイズが小さい場合、信頼区間は[min、max]と比較してかなり大きくなります。
コアロ

2

二項信頼区間は、長い間統計学者の議論の主題でした。あなたの問題は100%未満の割合であると考えていますが、100%を使用するとさらに問題になります。質問をするための洞察に満ちた方法は次のとおりです。

過去2,000年間、毎日太陽が確実に昇ってきたとすると、明日は太陽が昇る確率はどのくらいでしょうか?

p=1

これらのテールを計算する方法はいくつかあります。Wikipediaで数学をチェックすることをお勧めします。答えを知りたい場合は、このような二項間隔計算機を検索することをお勧めします(たまたまその数学の詳細な説明もあります)。


それは私が探しているものに非常に近いですが、式は私の実験の単一の実行の結果の信頼区間を計算するようであり、いくつかの実験の平均の信頼区間ではありません。
コアロ

分母(例では100パケット)がすべての実行で同じままである限り、1回の実行でも複数の実行でもかまいません。100個ずつの3つの実験を実行することは、300パケットで1つの実験を実行することと数学的に同じです。2項式を使用できますが、n = 100ではなくn = 300を使用できます。分母が等しくない場合、加重平均(nで加重)を見つける必要があり、新しいnはnの合計になります。
ザハヴァコル

@ZahavaKorコメントするには長すぎるので、質問に編集を追加しました。間違っているとは言いませんが、現在の理解とは一致しません。
コアロ

2

ベイジアンアプローチ:

BBの密度は、希望する「自信」に統合されます。複数の解決策が存在する可能性があり、以前の状況によっては、平均比率が間隔内にない場合があります。


+1、これは信頼区間ではなく、信頼できる区間であっても。ベータ版を見つける方法についてもう少し言えますか?フラットな事前ベータ(1,1)から開始できますが、{0.985,0.986,0.935,0.890,0.999}などの一連の観測値を指定して更新する方法はありますか?通常、Binomialの共役としてBetaを使用し、そこで観測されたそれぞれの更新p=n/m 簡単ですが、指定された更新方法 pのみ?
アメーバは、モニカーを復活させる
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.