95%信頼区間の解釈


10

私はもともと、95%信頼区間が95%の確率に真の平均が含まれている可能性があることを意味しない理由を尋ねる質問への部分的な回答として以下を投稿しました(参照:95%信頼区間(CI)が含まれない理由平均を含む確率が95%であることを意味しますか?)。コメント投稿者(Johnに感謝)は、コメントを別の質問として投稿するように私に依頼しました。

まず、標準のデッキからランダムにトランプを選択した場合、クラブを選択しなかった(それを見ないで)確率は13/52 = 25%であると想定します。

次に、95%の信頼区間は、実験を複数回繰り返すという意味で解釈されるべきであると何度も述べられています。計算された区間には、真の平均95%の時間が含まれます。上記の質問のシミュレーション。ほとんどの人は、95%CIのこの解釈を受け入れているようです。

さて、思考実験のために。大規模な母集団に正規分布変数があるとしましょう-成人の男性または女性の身長かもしれません。私には、母集団から特定のサンプルサイズの複数のサンプリングプロセスを実行し、各サンプルのサンプル平均と95%信頼区間を計算する、意欲的で疲れないアシスタントがいます。私のアシスタントは非常に熱心で、人口からのすべての可能なサンプルを測定することに成功しています。次に、各サンプルについて、アシスタントは結果の信頼区間を緑(CIに真の平均が含まれている場合)または赤(CIに真の平均が含まれていない場合)として記録します。残念ながら、私のアシスタントは彼の実験の結果を私に見せません。人口の大人の身長に関する情報を取得する必要がありますが、時間しかありません。一度実験を行うためのリソースと忍耐力。(アシスタントが使用したのと同じサンプルサイズの)単一のランダムサンプルを作成し、(同じ方程式を使用して)信頼区間を計算します。

アシスタントの結果を確認する方法がありません。それで、私が選択したランダムサンプルが緑のCIを生成する確率はどのくらいですか(つまり、区間には真の平均が含まれています)?

私の考えでは、これは前に概説した一連のカードの状況と同じであり、私のサンプルを使用して計算された間隔が緑(つまり、真の平均を含む)である確率は95%であると解釈できます。それでも、コンセンサスは、95%の信頼区間には、区間に真の平均が含まれる可能性が95%あると解釈できないことを示しています。上記の思考実験における私の推論は、なぜ(そしてどこで)崩れるのですか?


違いは、あなたの例では、人口が何を意味するかを実際に知っているということです。したがって、100の信頼区間のうち、95が緑色、5が赤色になると推定できます。平均値がCIにある確率が95%であると言うと、平均値はCIによって決定されているかのように(私にとって)聞こえますが、実際には平均値が与えられます(ただし、それが何であるかはわかりません)。 CIは推定されます。問題は、真にランダムではなく、決定論的であるが観測されていないものに「確率」という用語を使用することです。
マリー。

@ Marie.P。ご意見ありがとうございます。霧を少し取り除くのに役立ちます。ただし、やや工夫された例を続けるために、私のアシスタントは母平均を計算できるかもしれませんが、私はその情報にアクセスできません。私は単一のサンプルから収集した情報しか持っていません。(サンプルデータを使用して計算された)CIが平均を含む確率を考慮するようにしてみましたが、平均が特定のCIにある確率(あなたが述べたとおり)は、少し異なるアサーションと見なされます。しかし、コメントの最後の文は役に立ちます。
user1718097 2017

回答:


2

混乱はこの文章から来ています:

それでも、コンセンサスは、95%の信頼区間には、区間に真の平均が含まれる可能性が95%あるとは解釈できないということです。

それは実際のコンセンサスの部分的な誤解です。混乱はに関する特定されていないから来てどのような 確率我々はについて話しています。哲学的な質問としてではなく、「私たちが文脈で語っている正確な確率」として。@ratsaladが言うように、それはすべて条件付けについてです。

をパラメーター、をデータ、を関数である間隔で呼び出します。θXIX

  • Iは信頼区間であり、真のものを含むすべての可能なについてを意味します。固定されたで可能なすべての確率平均。これはあなたの解釈で説明することです。P(θIθ)>0.95θXθ
  • Iは(ベイジアンの)信頼できる区間であるため、ます。固定での すべての可能な確率平均。P(θIX)>0.95θX

どちらも同じイベントの確率ですが、条件が異なります。

1思いとどまらは「確率と言った理由である、我々は「という...確率」と言うとき:この文は、暗黙のうちに第二の点を意味するので信頼区間のために0.95であるが、」ある空調がされているものに、暗黙的です以前に観察された:「私はいくつかのを見た。今、が...である確率は何であるか」は正式には「」である。θIXθP(θ...X)

この暗黙のは、「確率読み込み時に発生する(再び暗黙の)提案によって強化されたであるという」変数とある frequentist分析では、それは逆である一方で、固定オブジェクトを。θIθI

最後に、計算した間隔でを置き換える、これはさらに悪化します。「がある確率は0.95」と書いた場合、これは単に誤りです。頻度分析では、「 is in」は真または偽のいずれかですが、ランダムなイベントではないため、確率はありません(0または1以外)。したがって、この文はベイジアンの文としてのみ意味のあるものとして解釈されます。Iθ[4;5]θ[4;5]


1.)P(..)> 0.95ではなく、P(..)= 0.95であるべきではありませんか?2.)最後の段落が正式な説明と矛盾していませんか?頻出CIはP(\ theta \ in I | \ theta)\ in \ {0,1}であってはなりませんか?あなたは自分で「頻度分析では「θis in [4; 5]」は真か偽のどちらかだ」と言いましたが、正式な説明では「> 0.95」と言っていますか?
HOSS_JFL

2

違いの一部は条件付けに帰着します。前データ確率と後データ確率の違いです。単一の実験を行う前(サンプルを取得する前)には、95%の確率で95%CIに真の平均が含まれることがわかります(これは95%CIの定義です)。ただし、サンプルを取得した後は、知識の状態が異なります。真の平均値は学習していませんが、特定のデータサンプルを見たことがあるため、新しい知識が得られる可能性があり、確率計算に影響を与える可能性があります。

同様に、カードを引く前に、カードがクラブになる確率は25%であることがわかります。アナロジーを機能させるために、カードを引くときにカードの真のスーツを学ぶことはできません(同様に真の意味が常にあなたから隠されているためです)。しかし、あなたはカードを引くことから何か新しいこと、例えばスーツの色を学ぶかもしれません。

カードを引いて、何らかのメカニズム(要点は問題ではない)を介して、カードが黒のスーツのものであることがわかったとします。これにより確率が変わります。以前の情報から、クラブは黒であり、カードの半分は黒のスーツであることがわかったので、カードがクラブである確率が50%であることがわかりました。一方、レッドカードを発見した場合、以前の情報からクラブはレッドではないことがわかっているので、カードがクラブである確率は0%であることがわかります。これらの確率は両方とも、カードを引く前にクラブの25%の確率と一致しています。

以前の情報を無視する場合、またはカードが黒であると言われなかった場合でも、25%の確率で正解となります。ただし、以前の情報を利用すれば、より良い結果が得られます。

実際のCIの場合、これには多くの例があり、データを見ると、CI%とは異なるカバレッジ確率が得られます。デビッドマッケイの「誤解を招く」CIのこの古典的な例(投稿の途中)が役立つ場合があります。同様の例がBergerによって与えられています。

人々の身長の例を続けると、調査対象の人口はオランダであり、世界のどの国の平均高さも最も高い(約 m)オランダであることがわかったとします。ただし、サンプルの95%CIが mであるとします。真の人口がその間隔内にある確率は95%あるとまだ思いますか?事前の知識に基づいて、あなたの特定のサンプルは確率論的なまぐれであり、異常に低かったと私は言うでしょう。つまり、真の平均が計算されたCIにある確率は95%をはるかに下回ります。 1.84±0.021.7±0.02

サンプルを取得して特定のCIを計算する前は、真の平均を含むCIを取得する可能性は95%でした。その後、事前情報を使用せず、すべての高さがアプリオリである可能性が等しいと想定する場合、必要に応じて、間隔に真の平均が含まれる可能性が95%あるというベイズのステートメントを作成できます。しかし、そのような発言はCIの定義に準拠しておら、平均の前に想定された特定の特定に決定的に依存していることを理解してください。最も頻度の高いCIはベイジアン方式で簡単に再解釈できないため、これは正規性の仮定にも依存します。


答えてくれてありがとう、それは私の心の中の事をクリアするのに役立ちます。おもう。
user1718097 2018年

0

あなたの質問は統計よりも哲学です。それは箱の中の猫の形で悪心について議論されてきました。

https://en.wikipedia.org/wiki/Schr%C3%B6dinger%27s_cat

追加します

95%信頼区間は、実験を複数回繰り返すという意味で解釈する必要があります。計算された区間には、95%の時間の真の平均が含まれます。

これは1つの解釈です。また、間隔を作成する前に、プロセスが真の平均をとらえる間隔になる可能性は95%あるとも言えます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.