私はもともと、95%信頼区間が95%の確率に真の平均が含まれている可能性があることを意味しない理由を尋ねる質問への部分的な回答として以下を投稿しました(参照:95%信頼区間(CI)が含まれない理由平均を含む確率が95%であることを意味しますか?)。コメント投稿者(Johnに感謝)は、コメントを別の質問として投稿するように私に依頼しました。
まず、標準のデッキからランダムにトランプを選択した場合、クラブを選択しなかった(それを見ないで)確率は13/52 = 25%であると想定します。
次に、95%の信頼区間は、実験を複数回繰り返すという意味で解釈されるべきであると何度も述べられています。計算された区間には、真の平均95%の時間が含まれます。上記の質問のシミュレーション。ほとんどの人は、95%CIのこの解釈を受け入れているようです。
さて、思考実験のために。大規模な母集団に正規分布変数があるとしましょう-成人の男性または女性の身長かもしれません。私には、母集団から特定のサンプルサイズの複数のサンプリングプロセスを実行し、各サンプルのサンプル平均と95%信頼区間を計算する、意欲的で疲れないアシスタントがいます。私のアシスタントは非常に熱心で、人口からのすべての可能なサンプルを測定することに成功しています。次に、各サンプルについて、アシスタントは結果の信頼区間を緑(CIに真の平均が含まれている場合)または赤(CIに真の平均が含まれていない場合)として記録します。残念ながら、私のアシスタントは彼の実験の結果を私に見せません。人口の大人の身長に関する情報を取得する必要がありますが、時間しかありません。一度実験を行うためのリソースと忍耐力。(アシスタントが使用したのと同じサンプルサイズの)単一のランダムサンプルを作成し、(同じ方程式を使用して)信頼区間を計算します。
アシスタントの結果を確認する方法がありません。それで、私が選択したランダムサンプルが緑のCIを生成する確率はどのくらいですか(つまり、区間には真の平均が含まれています)?
私の考えでは、これは前に概説した一連のカードの状況と同じであり、私のサンプルを使用して計算された間隔が緑(つまり、真の平均を含む)である確率は95%であると解釈できます。それでも、コンセンサスは、95%の信頼区間には、区間に真の平均が含まれる可能性が95%あると解釈できないことを示しています。上記の思考実験における私の推論は、なぜ(そしてどこで)崩れるのですか?