Morey et al(2015)は、信頼区間は誤解を招くものであり、それらの理解に関連する複数のバイアスがあると主張しています。とりわけ、彼らは精度の誤precisionを次のように説明しています:
精度の誤り
信頼区間の幅は、パラメーターに関する知識の精度を示します。狭い信頼区間は正確な知識を示し、広い信頼誤差は不正確な知識を示します。推定の精度と信頼区間のサイズの間に必要な関係はありません。これを確認する1つの方法は、2人の研究者(上級研究者と博士課程の学生)がデータを分析していることを想像することです実験から 50人の参加者のです。博士課程の学生の利益のための演習として、上級研究者は参加者をランダムに 2セットに分割し、それぞれがデータセットの半分を個別に分析できるようにすることを決定します。後続の会議で、2人は互いに平均のスチューデントの信頼区間を共有します。博士課程の学生の CIはであり、上級研究員の 95 % CIはCIはです。
上級研究員は、結果がほぼ一貫しており、それぞれの2つのポイント推定値の均等に重み付けされた平均値真の平均値の全体的な推定値として使用できることに注目しています。
しかし、博士課程の学生は、2つの平均を均等に重み付けすべきではないと主張します。彼女は、CIの幅が半分であると指摘し、推定がより正確であるため、より重く重み付けする必要があると主張します。彼女のアドバイザーは、2つの平均の不均等な重み付けからの推定値は、完全なデータセットの分析からの推定値とは異なるため、でなければならないため、これは正しいとは言えないと指摘します。博士課程の学生の間違いは、CIがデータ後の精度を直接示すと仮定していることです。
上記の例は誤解を招くようです。サンプルをランダムに半分に2つのサンプルに分割すると、サンプル平均と標準誤差の両方が近くなると予想されます。このような場合、加重平均の使用(たとえば、逆誤差による加重)と単純な算術平均の使用に違いはありません。ただし、推定値が異なり、サンプルの1つのエラーが著しく大きい場合、そのようなサンプルの「問題」を示唆している可能性があります。
明らかに、上記の例では、サンプルサイズが同じであるため、平均をとることでデータを「結合」することは、サンプル全体を平均することと同じです。問題は、サンプル全体が最初に部分に分割され、最終的な推定のために再び結合されるという不明確なロジックに従っているということです。
この例を言い換えると、まったく逆の結論に導くことができます。
研究者と学生は、データセットを2つに分割し、個別に分析することにしました。その後、彼らは彼らの推定値を比較し、サンプルは彼らが計算したものが非常に異なっていることを意味し、さらに学生の推定値の標準誤差ははるかに大きかったようでした。学生はこれが彼の推定の精度の問題を示唆することを恐れていましたが、研究者は信頼区間と精度の間に関連性がないことを暗示したので、両方の推定は等しく信頼でき、ランダムに選択されたそれらのいずれかを公開できます、最終的な見積もりとして。
より正式に述べると、スチューデントのような「標準」信頼区間はエラーに基づいています
どこ、いくつかの定数です。そのような場合、それらは精度に直接関係していますよね。
だから私の質問は次のとおり
です。信頼区間は精度について何と言っていますか?
Morey、R.、Hoekstra、R.、Rouder、J.、Lee、M.、&Wagenmakers、E.-J. (2015)。信頼区間に信頼を置くという誤り。Psychonomic Bulletin&Review、1–21。https://learnbayes.org/papers/confidenceIntervalsFallacy/