キース・ウィンスタイン、
編集:明確にするために、この回答は、残酷な統計ゲームでの王に関するキース・ウィンスタインの回答で与えられた例を説明しています。ベイジアンとフリークエンティストの回答は両方とも同じ情報を使用します。これは、間隔を構築するときに、公正なコインと不公平なコインの数に関する情報を無視することです。この情報が無視されない場合、周波数専門家は、信頼区間を構築する際のサンプリング分布として統合ベータ二項尤度を使用する必要があります。この場合、クロッパーピアソン信頼区間は適切ではなく、変更する必要があります。ベイジアンソリューションでも同様の調整が必要です。
編集:クロッパーピアソン間隔の初期使用も明確にしました。
編集:悲しいかな、私のアルファは間違った方法であり、私のクロッパーピアソン間隔は間違っています。@whuberに謙虚に謝罪しました。彼はこれを正しく指摘しましたが、最初は反対し無視しました。
Clopper Pearsonメソッドを使用したCIは非常に優れています
観測値が1つだけの場合は、クロッパーピアソン間隔を分析的に評価できます。あなたが選択する必要があります(ヘッド)、「成功」として起動しますコインがあるとしするように、θ
[Pr(Bi(1,θ)≥X)≥α2]∩[Pr(Bi(1,θ)≤X)≥α2]
場合、これらの確率はおよびであるため、クロッパーピアソンCIは場合、(および自明に常に真)。場合、これらの確率はおよびであるため、クロッパーピアソンCIは、又は。したがって、95%CIの場合、ときにを取得し、X=1Pr(Bi(1,θ)≥1)=θPr(Bi(1,θ)≤1)=1θ≥α21≥α2X=1X=0Pr(Bi(1,θ)≥0)=1Pr(Bi(1,θ)≤0)=1−θ1−θ≥α2θ≤1−α2X=0[0.025,1]X=1[0,0.975]場合。X=0
したがって、Clopper Pearson Confidence Intervalを使用するユーザーが斬首されることはありません。間隔を観察すると、それは基本的にパラメータ空間全体です。しかし、CP間隔は、おそらく95%の間隔に100%のカバレッジを与えることでこれを行っています!基本的に、フリークエンティストは、95%の信頼区間を与えるように求められたよりも多くのカバレッジを与えることで「ごまかし」ます(そのような状況でだまされない人はいますか?それが私なら、全体を与えます[0、 1]間隔)。王が正確な 95%CIを要求した場合、この頻繁な方法は実際に何が起こったとしても失敗します(おそらくもっと良い方法がありますか?)。
ベイジアン間隔はどうですか?(具体的には最高後部密度(HPD)ベイジアン間隔)
頭と尻尾の両方が現れることをアプリオリに知っているので、均一な事前確率は合理的な選択です。これにより、事後分布が得られます。さて、今やるべきことは、事後確率が95%の区間を作成することだけです。clopper pearson CIと同様に、Cummulative Beta分布もここで解析的であるため、そして 0.95にこれらの設定を与える及びとき。したがって、2つの信頼できる間隔は(θ|X)∼Beta(1+X,2−X)Pr(θ≥θe|x=1)=1−(θe)2Pr(θ≤θe|x=0)=1−(1−θe)2θe=0.05−−−−√≈0.224X=1θe=1−0.05−−−−√≈0.776X=0(0,0.776)とき及びX=0(0.224,1)X=1
彼が悪いのコインを取得するときにこのようにベイズの場合は彼のHPDの信頼区間のために斬首されると悪いコインはチャンスで発生します尾まで来る。11012+1×110≈0
最初の観測では、ベイジアン間隔は信頼区間よりも小さくなっています。もう1つのことは、ベイジアンは、実際の報道に、95%頻繁に行くよりも近いということです。実際、ベイジアンは、この問題で得られるのとほぼ同じ95%のカバレッジに近いものです。キースの声明とは反対に、悪いコインが選択された場合、100のうち10のベイジアンは平均して頭を失います(すべてではありません。悪いコインは含まない間隔で頭を上げなければならないためです)。 0.1
興味深いことに、1つの観測のCP間隔が繰り返し使用されたため(それぞれ1つの観測に基づいてN個のそのような間隔があります)、真の割合がから間であれば、95%CIのカバレッジは常に100になります95%ではなく%!これは明らかにパラメーターの真の値に依存します!そのため、これは、信頼区間を繰り返し使用しても目的のレベルの信頼が得られない場合の少なくとも1つです。0.0250.975
真の 95%信頼区間を引用するには、定義により、パラメーターの真の値を含まない観測された区間のいくつかのケース(少なくとも1つ)が存在する必要があります。それ以外の場合、95%タグをどのように正当化できますか?90%、50%、20%、または0%の間隔と呼ぶのは、単なる有効または無効ではありませんか?
無料の制限なしに「実際には95%以上を意味する」と単純に述べるだけでは満足できるとは思えません。これは、明らかな数学的解決策はパラメーター空間全体であり、問題は簡単だからです。50%CIが必要だとしますか?偽陰性のみを制限する場合、パラメーター空間全体は、この基準のみを使用する有効なCIです。
おそらく、より良い基準は(そして、これがKiethの定義で暗黙的であると信じている)「可能な限り95%に近い、95%を下回らない」ことです。Bayesian Intervalのカバレッジは、フリークエンティストよりも95%近く(あまりではありませんが)、カバレッジが95%未満になることはありません(、および場合、カバレッジ)場合のカバレッジ。100%X=0100×1012+9101012+1%>95%X=1
最後に、不確実な間隔を要求し、不確かな真の値を使用してその間隔を評価することは少し奇妙に思えます。私にとって、信頼区間と信頼区間の両方の「より公平な」比較は、区間で与えられる不確実性の声明の真実のように思えます。