問題の一部は、確率の頻繁な定義が特定の実験の結果に非自明な確率を適用することを許可せず、この特定の実験をサンプルとみなすことができる架空の実験集団にのみ適用することです。CIの定義は、手元のインスタンスで収集された特定のデータに関するものではなく、この(通常)架空の実験集団に関する記述であるため、混乱を招きます。したがって、問題の一部は確率の定義の1つです。特定の間隔内にある95%の確率で真の値が得られるという考え方は、頻度主義の枠組みと矛盾しています。
問題の別の側面は、頻度の信頼度の計算が、統計の真の値の境界に関連する特定のサンプルに含まれる情報のすべてを使用しないことです。私の質問「ベイジアンの信頼できる区間が周波数帯の信頼区間より明らかに劣っている例はありますか」Edwin Jaynesによる論文を議論します。この論文には、信頼区間と信頼区間の違いを本当に強調するいくつかの本当に良い例があります。この議論に特に関連するのは、切り捨てられた指数分布のパラメーターを推定するための信頼できる区間と信頼区間の違いを議論する例5です(産業品質管理の問題について)。彼が与える例では、対象の試料に十分な情報がある特定のパラメータの真の値が適切に構築され、90%信頼区間ではどこにもありませんことを!
これは一部の人には衝撃的なように思えるかもしれませんが、この結果の理由は、信頼区間と信頼区間が、2つの異なる確率の解釈からの2つの異なる質問への答えだからです。
信頼区間は、リクエストに対する答えです。「何度も繰り返される実験のインスタンスの%で、パラメーターの真の値を囲む区間を教えてください。」信頼できる間隔は、要求に対する答えです。「実際に観測した特定のサンプルを考慮して、真の値を確率pで囲む間隔を与えてください。」後者の要求に答えられるようにするには、最初に)データ生成プロセスの新しい概念、または(b)確率の定義自体の異なる概念。 100pp
特定の95%信頼区間が平均を含む可能性が95%であることを意味しない主な理由は、信頼区間が別の質問に対する回答であるためです。同じ数値解を持っています。
要するに、信頼できる信頼区間は、さまざまな観点からさまざまな質問に答えます。どちらも便利ですが、実際に質問したい質問に適切な間隔を選択する必要があります。真の値を含む95%(事後)確率の解釈を許可する間隔が必要な場合は、信頼区間ではなく、信頼できる間隔(およびそれに伴う確率の付随概念化)を選択します。すべきではないことは、分析で使用されるものとは異なる解釈の確率の定義を採用することです。
@cardinalの改良に感謝します!
以下は、David MaKayの優れた本「情報理論、推論、および学習アルゴリズム」(464ページ)からの具体例です。
対象のパラメーターをとし、データD、次の分布から独立して描かれた点x 1とx 2のペアを考えます。θDx1x2
p(x|θ)=⎧⎩⎨⎪⎪1/21/20x=θ,x=θ+1,otherwise
場合ある39、そして我々は、データセットを参照するために期待される(39 、39 )、(39 、40 )、(40 、39 )と(40 、40 )、すべて同じ確率で1 / 4。信頼区間を考慮するθ39(39,39)(39,40)(40,39)(40,40)1/4
。[θmin(D),θmax(D)]=[min(x1,x2),max(x1,x2)]
明らかにこれは有効な75%信頼区間です。データを何度も再サンプリングすると、この方法で構築された信頼区間には75%の時間の真の値が含まれるためです。D=(x1,x2)
今すぐデータを検討。この場合frequentist 75%信頼区間は次のようになり[ 29 、29 ]。ただし、生成プロセスのモデルが正しいと仮定すると、この場合、θは28または29になる可能性があり、29が28より高い可能性があると考える理由はないため、事後確率はp (θ = 28 | D )です= P (θ = 29 | D )= 1 / 2D=(29,29)[29,29]θp(θ=28|D)=p(θ=29|D)=1/2。それが真の値が含まれているだけで、50%の確率があるように、この場合にfrequentist信頼区間は明らかに75%の信頼区間ではありません、私たちが推測することができるものを与えられたθ、この特定のサンプルからを。θθ
はい、これは不自然な例ですが、信頼区間と信頼区間が異なっていなければ、不自然な例でも同じです。
重要な違いは、信頼区間は実験を何度も繰り返した場合に何が起こるかに関する記述であり、信頼区間はこの特定のサンプルから推測できるものに関する記述であることに注意してください。