なぜこれらのステートメントは平均値の95%CIから論理的に従わないのですか?


26

私はWaekmakersのWebサイトからダウンロードした、「信頼区間のロバストな誤解」に関するHoekstraらの2014年の論文を読んでいます。

最後から2番目のページに次の画像が表示されます。

クイズ

著者によると、Falseはこれらすべてのステートメントに対する正しい答えです。陳述が偽である理由はよくわかりませんが、私が知る限り、残りの論文ではこれを説明しようとはしていません。

1-2と4は、真の平均が未知の明確な値を持っているときに、真の平均の可能性のある値について何かを主張するため、正しくないと思います。これは説得力のある違いですか?

3に関して、私は帰無仮説が間違っている可能性について主張するつもりはないことを理解していますが、その理由はあまりわかりません。

同様に、6は、真の平均が実験ごとに変化していることを意味するため、真ではありえません。

私がまったく理解していないのは5です。なぜそれが間違っているのですか?95%の時間で真の平均を含むCIを生成するプロセスがある場合、人口値が0.1から0.4の間である95%の信頼性があると言わないのはなぜですか?真の平均値を含まない5%の1つである可能性が高いと思わせる、採取したサンプルに関する特別な情報がある可能性があるからでしょうか。たとえば、0.13は信頼区間に含まれており、何らかの理由で、特定の研究のコンテキスト内では0.13は妥当な値とは見なされません。たとえば、その値は以前の理論と矛盾するためです。

とにかく、この文脈で自信は何を意味しますか?


回答:


11

質問(5)のまさに意味は、「自信」の非公開の解釈に依存します。私はこの論文を注意深く検索しましたが、「自信」やこの文脈での意味を定義しようとする試みは見つかりませんでした。質問(5)に対する回答の論文の説明は

「... [それは] CIの境界に言及していますが、... CIは特定の間隔ではなく手順のみを評価するために使用できます。」

これは格別で誤解を招くものです。最初に、手順の結果を評価できない場合、最初の手順はどのような利点がありますか?第二に、質問の声明は手順に関するものではなく、その結果における読者の「自信」に関するものです。

著者は自分自身を守る:

「先に進む前に、CIの正しい定義を思い出すことが重要です。CIは、パラメーターの推定値の周りに構築される数値間隔です。ただし、そのような間隔は、パラメーターのプロパティを直接示すものではなく、代わりに、頻度の高いテクニックに典型的な手順のプロパティ。」

それらのバイアスは、最後のフレーズ「浮世絵テクニック」(おそらく、暗黙のne笑で書かれた)に現れています。この特性評価は正しいものの、非常に不完全です。 信頼区間は、実験方法(サンプルの取得および測定方法)の特性であり、さらに重要なことは、自然そのものであることにも気づきません。 それが誰もがその価値に興味を持つ唯一の理由です。

私は最近、Edward BatscheletのCircular Statistics in Biology(Academic Press、1981年)を読むことができました。Batscheletは、作業科学者向けのスタイルで、明確かつ要点を書いています。信頼区間について彼が言うことは次のとおりです。

偶然変動による偏差の兆候なしに、パラメータの推定値が少し科学的価値を持っています。 ...

「推定されるパラメーターは固定数ですが、信頼限界はサンプルによって決定されます。これらは統計であり、したがって偶然の変動に依存します。同じ母集団から引き出された異なるサンプルは異なる信頼区間につながります。」

[強調は、元の84〜85ページにあります。]

強調の違いに注意してください。問題の論文は手順に焦点を当てていますが、 Batscheletはサンプルに焦点を当てており、具体的にはパラメーターについて明らかにできることと、その情報が「チャンス変動」によってどの程度影響を受ける可能性があるか注目しています。このab然とするほど実用的で科学的なアプローチは、はるかに建設的で、啓発的で、そして究極的には有用です。

したがって、論文で提供されているよりも信頼区間の完全な特性評価を行うには、次のような手順を実行する必要があります。

CIは、パラメーターの推定値の周りに構築される数値間隔です。CI構築の基礎となる仮定に同意する人は誰でも、パラメータが間隔内にあると確信していると正当化されます。これは「自信がある」という意味です。 この意味は、実験の多くの複製(実際に行われるかどうか)の下でCIが変化するものの、ほとんどの場合パラメーターを含むことが期待されるため、従来の非技術的な信頼の意味と広く一致しています。

このより完全で、より慣習的で、より建設的な「自信」の感覚では、質問(5)への答えは真実です。


2
Batscheletのアプローチが、空になるCIなど、思慮深い読者に一時停止を与える特定の種類の信頼区間を除外しているように見えることは注目に値します。このようなCIは、「偶然の変動によって引き起こされる逸脱の兆候」という考えをほとんど捕捉しません。これは、おそらく信頼区間の標準的な定義では、意図したことを完全には達成できないことを示唆しています。とにかく、質問(5)で「信頼」が何を意味するのか明確に示されていない場合、著者はその質問に対する回答に基づいて著者が導き出した結論を無視しなければなりません。
whuber

ycaあなたはchyμ1μ

...続き...したがって、長期の平均カバレッジは達成されますが、特定のクラスのサンプルのカバレッジは達成されません。
確率論的

10

質問1-2、4:頻度分析では、真の平均は確率変数ではないため、確率は定義されませんが、ベイジアン分析では確率は事前確率に依存します。

質問3:たとえば、これらの結果を取得することはまだ可能ですが、帰無仮説が「ありそうにない」と言うのは不合理であることが確かな場合を考えてみましょう。帰無仮説が真の場合は発生しそうにないデータが得られましたが、これは帰無仮説が真である可能性が低いことを意味するものではありません。

質問5:これは、「p%自信がある」という定義に依存するため、少し疑問です。p%信頼区間から推測されるものを意味するようにステートメントを定義する場合、ステートメントは定義により正しいです。典型的な親ベイジアンの主張は、人々はこれらのステートメントを直感的に「確率はp%」であると解釈する傾向があり、これは誤りであることを示しています(1-2,4の答えと比較してください)。

質問6:「真の平均値は実験ごとに変わることを意味する」という説明は正確です。

この記事は最近Andrew Gelmanのブログ(http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/)で議論されました。たとえば、質問5のステートメントの解釈に関する問題は、コメントで説明されています。


1
それで、戻って「真の平均」のすべてのインスタンスを「真の平均の最良の推定」に置き換えた場合、ステートメントは正しくなるでしょうか?
スーパーベスト14

@Superbestいいえ。「このデータが与えられた場合の最適な推定値」を考慮する場合、それは既知の定数です(最良が明確に定義されている場合)。「将来のサンプルの最適な推定値」を検討する場合、真の平均がわからないため、どのように変化するかはわかりません。
ジュホコッカラ14

これは上記のコメントへの反exactlyではありませんが、実際には「最良の推定値」は分布ではなく実際の数値を意味することを指摘する必要があります。CIを使用すると、「このデータが与えられた場合に、真の平均値がどこに分布するか」について話すことができます。
スーパーベスト14

1
@Superそれはまさに、論文で取り上げられているCIの誤解です。特に、真の平均は数値です。配布はありません。詳細については、信頼区間のサイト検索で最初の2つのヒットを参照してください。
whuber

1
@super、「信頼できる間隔」が近くなります。
whuber

8

「95%自信がある」という意味の正式な定義がない場合、#5をtrueまたはfalseとラベル付けする正当な理由は何ですか。素人は間違いなく、平均がその区間にある95%の確率と同義であると誤解するでしょう:しかし、一部の人々は、区間が真の平均95%を含む区間生成方法を使用したという意味でそれを使用します、正確には、未知のパラメーターの確率分布について話すことを避けます。これは、用語の十分に自然な延長のようです。

前述のステートメント(#4)の類似の構造は、回答者が以前にアイデアを楽しんでいなかったとしても、「95%の自信があります」と「95%の確率があります」を区別しようとするよう促したかもしれません。このトリッキーさが、最も高い割合で一致する5位になると予想していました。論文を見ると、間違いであることがわかりましたが、少なくとも80%がオランダ語版のアンケートを読んでおり、英語翻訳の適切性。


4

BS EverittのDictionary of Statisticsの信頼区間の定義は次のとおりです。

「サンプル観測から計算された値の範囲は、特定の確率で真のパラメーター値を含むと考えられています。たとえば、95%CIは、推定プロセスが何度も繰り返され、その後95%計算された間隔の真のパラメーター値が含まれることが期待されます。記載されている確率レベルは、ランダム変数とは見なされないパラメーター自体ではなく、間隔のプロパティを参照していることに注意してください。

非常に一般的な誤解は、の意味混同することで信頼区間をのそれとの信頼区間の質問と同様のメイク文を行い、AKA「ベイズ信頼区間」、。

信頼区間は、多くの場合、情報価値のない事前確率から導出された信頼区間に似ていると聞いていますが、それは逸話的に私に伝えられました(私は多くのことを尊敬している男によるものですが)。


Jaynes 1976論文の信頼区間とベイジアン区間。それは少なくとも1つの信頼できる酸味です。また、BergerとBernardoの参考文献もあります。真剣に、あなたはこれらのことを聞いたことがありませんか?
確率論的

2

質問5の虚偽の直観については、このトピックに関する次の議論をここから入手します。

計算した信頼区間に真の母平均が含まれる可能性は95%であると言うのは正しいことです。母集団の平均が区間内にある可能性は95%であると言うのはまったく正しくありません。

違いは何ですか?母平均には1つの値があります。それが何であるかはわかりませんが(シミュレーションを行っている場合を除き)、1つの値があります。実験を繰り返しても、その値は変わりません(そして、それが何であるかまだわかりません)。したがって、母平均が特定の範囲内にある確率について尋ねることは厳密には正しくありません。対照的に、計算する信頼区間は、収集したデータによって異なります。実験を繰り返した場合、信頼区間はほぼ確実に異なります。そのため、区間に母平均が含まれる確率について質問しても構いません。

次に、5に関する具体的な質問について説明します。

  1. 真の平均を含まない5%の1つである可能性が高いと思わせる、採取したサンプルに関する特別な情報がある可能性があるからでしょうか。いいえ、むしろ、真の平均は確率変数ではなく、信頼区間はデータの関数だからだと思います。
  2. 1001α1001α

(この質問に対する他の回答で言及されている)サイドノートとして、ベイジアン統計の概念である信頼区間は、パラメーターの真の値が実際に得られたデータを与えられた信頼区間にある特定の確率を持つと予測します。おそらく、Gelmanのブログからこれに関するより多くの背景を得ることができます。


5
「間隔には真の値が含まれています」と「真の値は間隔内にあります」はまったく同じことを意味します。前者の観点から考えるのはより有益ですが、一方が正しいと言い、他方が間違っていると言うのは意味がありません。
デビッドリチャービー14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.