95%信頼区間(CI)が95%の平均を含む可能性を意味しないのはなぜですか?


228

ここで関連するさまざまな質問を通じて、「95%信頼区間」と呼ばれる「95%」の部分は、サンプリングとCI計算の手順を何度も正確に複製するという事実に言及しているというコンセンサスがあるようです。 、こうして計算されたCIの95%に母平均が含まれます。また、この定義はそうでないというコンセンサスのようです単一の95%CIから、平均がCI内のどこかに落ちる可能性が95%あると結論付けることを許可します。ただし、95%の人口が人口の平均を含むと多くのCIを想像している限り、前者が後者を暗示していないことを理解していません(実際に計算されたCIが人口を含むかどうかに関して意味するかどうか)想像されるケースのベースレート(95%)を、実際のケースにCIが含まれる確率の推定値として使用することを強制しますか?

「実際に計算されたCIには母集団の平均が含まれているか含まれていないため、確率は1または0である」という行に沿って議論している記事を見ましたが、これは依存する確率の奇妙な定義を暗示しているようです未知の状態(つまり、友人が公正なコインを裏返し、結果を非表示にし、50%の可能性があると言ってはいけません)。

確かに私は間違っていますが、私のロジックがどこでおかしくなったのかわかりません...


4
「チャンス」とは、技術的な頻度主義的な意味での「確率」、または主観的なもっともらしさのベイズ的な意味を意味しますか?頻繁な意味では、ランダム実験のイベントのみが確率を持ちます。与えられた3つの(固定)数値(真の平均、計算されたCI境界)を見て順序(CIに含まれる真の平均?)を決定するのはランダムな実験ではありません。これは、「実際に計算されたCIが母平均を含むか含まないため、その確率が1または0である」の確率部分も間違っている理由です。その場合、頻繁な確率モデルは適用されません。
カラカル

11
理論的平均をどのように扱うかによります。ランダム変数である場合、それが一定の間隔に入る確率について言うことができます。一定の場合、できません。それが最も簡単な説明であり、私にとってこの問題を個人的に閉じました。
mpiktas

2
ちなみに、私はこの話に出くわしました、タデウス・ターペイから:すべてのモデルは正しい…ほとんどは役に立たない。彼は、95%の信頼区間にが含まれる確率の問題について議論しました(p。81 ff。)?μ
-chl

3
@Nesp:CIに(固定)パラメーターが含まれる(事後)確率に関して、「確率は0または1のいずれかです」というステートメントに問題はないと思います。(これは、実際に頻度の高い確率の解釈に依存することすらありません!)。また、「不明な状態」に依存しません。このような声明は、特定のサンプルに基づいてCIが渡される状況を正確に指します。任意のこのような可能性は自明であることを示すために、単純な数学的運動、すなわち、の値をとり{0,1}
枢機

3
@MikeLawrenceは3年後、95%信頼区間の定義に満足しています。「母集団から繰り返しサンプリングし、各サンプルの後に95%信頼区間を計算した場合、信頼区間の95%には平均が含まれます。 「。2012年の皆さんのように、95%の信頼区間が95%の確率で平均を含むことを意味するものではないことを理解するのに苦労しています。この質問をしてから、信頼区間の理解がどのように進んでいるかを見てみたいと思います。
ルチアーノ

回答:


107

問題の一部は、確率の頻繁な定義が特定の実験の結果に非自明な確率を適用することを許可せず、この特定の実験をサンプルとみなすことができる架空の実験集団にのみ適用することです。CIの定義は、手元のインスタンスで収集された特定のデータに関するものではなく、この(通常)架空の実験集団に関する記述であるため、混乱を招きます。したがって、問題の一部は確率の定義の1つです。特定の間隔内にある95%の確率で真の値が得られるという考え方は、頻度主義の枠組みと矛盾しています。

問題の別の側面は、頻度の信頼度の計算が、統計の真の値の境界に関連する特定のサンプルに含まれる情報のすべてを使用しないことです。私の質問「ベイジアンの信頼できる区間が周波数帯の信頼区間より明らかに劣っている例はありますか」Edwin Jaynesによる論文を議論します。この論文には、信頼区間と信頼区間の違いを本当に強調するいくつかの本当に良い例があります。この議論に特に関連するのは、切り捨てられた指数分布のパラメーターを推定するための信頼できる区間と信頼区間の違いを議論する例5です(産業品質管理の問題について)。彼が与える例では、対象の試料に十分な情報がある特定のパラメータの真の値が適切に構築され、90%信頼区間ではどこにもありませんことを!

これは一部の人には衝撃的なように思えるかもしれませんが、この結果の理由は、信頼区間と信頼区間が、2つの異なる確率の解釈からの2つの異なる質問への答えだからです。

信頼区間は、リクエストに対する答えです。「何度も繰り返される実験のインスタンスの%で、パラメーターの真の値を囲む区間を教えてください。」信頼できる間隔は、要求に対する答えです。実際に観測した特定のサンプルを考慮して、真の値を確率pで囲む間隔を与えてください」後者の要求に答えられるようにするには、最初に)データ生成プロセスの新しい概念、または(b)確率の定義自体の異なる概念。 100pp

特定の95%信頼区間が平均を含む可能性が95%であることを意味しない主な理由は、信頼区間が別の質問に対する回答であるためです。同じ数値解を持っています。

要するに、信頼できる信頼区間は、さまざまな観点からさまざまな質問に答えます。どちらも便利ですが、実際に質問したい質問に適切な間隔を選択する必要があります。真の値を含む95%(事後)確率の解釈を許可する間隔が必要な場合は、信頼区間ではなく、信頼できる間隔(およびそれに伴う確率の付随概念化)を選択します。すべきではないことは、分析で使用されるものとは異なる解釈の確率の定義を採用することです。

@cardinalの改良に感謝します!

以下は、David MaKayの優れた本「情報理論、推論、および学習アルゴリズム」(464ページ)からの具体例です。

対象のパラメーターをとし、データD、次の分布から独立して描かれた点x 1x 2のペアを考えます。θDx1x2

p(x|θ)={1/2x=θ,1/2x=θ+1,0otherwise

場合ある39、そして我々は、データセットを参照するために期待される39 39 39 40 40 39 40 40 、すべて同じ確率で1 / 4。信頼区間を考慮するθ39(39,39)(39,40)(40,39)(40,40)1/4

[θmin(D),θmax(D)]=[min(x1,x2),max(x1,x2)]

明らかにこれは有効な75%信頼区間です。データを何度も再サンプリングすると、この方法で構築された信頼区間には75%の時間の真の値が含まれるためです。D=(x1,x2)

今すぐデータを検討。この場合frequentist 75%信頼区間は次のようになり[ 29 29 ]。ただし、生成プロセスのモデルが正しいと仮定すると、この場合、θは28または29になる可能性があり、29が28より高い可能性があると考える理由はないため、事後確率はp θ = 28 | D )です= P θ = 29 | D = 1 / 2D=(29,29)[29,29]θp(θ=28|D)=p(θ=29|D)=1/2。それが真の値が含まれているだけで、50%の確率があるように、この場合にfrequentist信頼区間は明らかに75%の信頼区間ではありません私たちが推測することができるものを与えられたθ、この特定のサンプルからをθθ

はい、これは不自然な例ですが、信頼区間と信頼区間が異なっていなければ、不自然な例でも同じです。

重要な違いは、信頼区間は実験を何度も繰り返した場合に何が起こるかに関する記述であり、信頼区間はこの特定のサンプルから推測できるものに関する記述であることに注意してください。


8
信頼区間は、「実験が多数回繰り返された場合に確率pで統計値の真の値を囲む区間を与えてください」という質問に対する答えです。信頼できる間隔は、「真の値を確率pで囲む間隔を与えてください」という質問に対する答えです。まず第一に、頻繁に発生する確率の解釈に関する声明は、望まれるものを残します。おそらく、問題はその文の単語確率の使用にあります。第二に、信頼できる間隔の「定義」が少し単純すぎると思います
枢機

7
...そしてCIに与える特性を考慮すると、少し誤解を招く可能性があります。関連して、最後の文にも同じ問題があります95%の時間の真の値を含む間隔が必要な場合、信頼区間ではなく信頼できる区間を選択します。「95%の時間に真の値を含む」という口語的な使用は少し不正確で、間違った印象を残します。実際、このような表現はCIの定義にはるかに近いという説得力のある議論をすることができます(私は信じています)。
枢機

11
リクエスト:この回答に対するダウンボッターがコメントで意見/理由を表現することは有益です。この質問は、ほとんどの場合よりも議論を広げる可能性が少し高いですが、回答者に建設的なフィードバックを提供することは依然として有用です。これは、サイトのコンテンツ全体の改善に役立つ最も簡単な方法の1つです。乾杯。
枢機

9
ディクラン、はい、同意します。それは私が編集でもう少し引き出しようとしていたことの一部でした。(私は確かだラジカルfrequentist ないが、CIは、私はその中に保守的である」:として)挑発的にそれを述べるかもしれない設計間隔を予め関係なく、私が観察するために起こる特定のどのデータ、パラメータは間隔で95%を獲得しないことを、このような「おっと、誰かが私の膝にデータを投げただけです。そのデータから作成した間隔に真のパラメーターが含まれる確率はどれくらいですか?」と言うことから、信頼できる間隔が生じます。 。
カーディナル

2
ディクラン、私たちはすべて異なる背景から来ており、それは私たちの理解を豊かにするのに役立ちます。確率と関連する概念については、おそらく私がやり取りした中で最も素晴らしい思想家は、正式な統計や(数学的な)確率の背景を持っていませんでした。彼はエンジニアでした。
枢機

28

頻繁な統計では、確率は長期的なイベントに関するものです。完了した単一のイベントには適用されません。そして、実験の実行とCIの計算はまさにそのような出来事です。

隠されたコインが頭になる確率と比較したいのですが、できません。非常に近いものに関連付けることができます。フリップ「ヘッド」の後に述べる必要があるルールがゲームにある場合、長期的には正しい確率は50%であり、これは同様です。

実験を実行してデータを収集すると、実際のコインの裏返しに似たものが得られます。実験のプロセスは、μを生成するという点でコイン反転のプロセスに似ていますμまたは、それはコインが頭であるだけでなく、そうでもありません。コインをひっくり返したら、それが見えても見えなくても、それが頭であるか、頭であるかそうでないかの確率はありません。次に、headsを呼び出すとします。それがCIの計算です。コインを明らかにすることはできないからです(実験との類推はなくなります)。あなたが正しいか間違っているかのどちらかです、それだけです。現在の状態は、次のフリップで頭に浮かぶ確率と関係がありますか、それとも何であるかを予測できたでしょうか?いいえ。頭が生成されるプロセスは、頭を生成する確率が0.5ですが、すでに存在する頭が存在する確率が0.5であることを意味しません。CIを計算すると、μをキャプチャする可能性はありませんμ、そうするかしないかのどちらかです。すでにコインを裏返しています。

OK、私はそれを十分に拷問したと思います。重要な点は、あなたのアナロジーが間違っているということです。コインを明らかにすることはできません。コイン(実験)に関する仮定に基づいて、ヘッドまたはテールのみを呼び出すことができます。その後、頭や尾が正しいことを賭けたいと思うかもしれませんが、それを集めることはできません。また、インポートの値が間隔内にあることを示すのは、CIプロシージャの重要なコンポーネントです。そうでない場合、CI(または少なくとも指定された%のCI)がありません。

おそらくCIを混乱させるのはその名前です。含むまたは含まない値の範囲です。それらにはμが含まれていると思いますが、その可能性は、それを開発したプロセスと同じではありません。95%CI名の95%の部分は、まさにそのプロセスです。あなたはできますが、その後は含まれてい信じる範囲計算μをいくつかの確率レベルでのそれは異なる計算していないCIのです。μμμ

95%CIという名前は、μを含むと考えられる値の範囲の一種の測定値の指定と考え、95%をその妥当性から分離する方が適切です。99%CIはWendy CIですが、ジェニファーCIと呼ぶこともできます。それは実際には良いかもしれません。その後、μが値の範囲内にある可能性が高いと信じることができ、μをキャプチャしたウェンディ確率があると言って立ち往生することはありません。別の指定が必要な場合は、おそらくCIの「信頼」部分も削除してください(ただし、間隔です)。μμμ


公平を期すために、この返事は大丈夫のようですが、正式な(数学的な)説明を見てみたいです。フォーマルとは、イベントに変換することを意味します。ポイントを説明します。最初は値と非常に混同されていたことを覚えています。どこかで、「p値が実際に計算するのは、帰無仮説H 0が真であると仮定した場合のデータの確率です」と読みました。これをベイズの定理と関連付けると、すべてが非常に理にかなっていて、今ではすべての人に説明できます(つまり、p D | H 0)を計算します)。しかし、私は(皮肉なことに)それほど自信がないppH0p(D|H0)
...-ネストール

...(続き)信頼区間:知識の観点から言ったことを表現する方法はありますか?頻繁に 統計。1は通常点推定値を算出し、μμ^いくつかの方法(例えば、MLE)で、。書くためにそこの方法である(と、ベイズ中央後部の間隔で例えばμ "真の平均は")の関数としてP L " 1 < ˉ X - μ <P(L1(μ^)<μ<L2(mu^)|D)μp H 0 | D p D | H 0)の関数として表現できる場合のように、 L 2= α(つまり、信頼区間の α%は実際には何ですか?直感的に、私はいつもそれができると思っていましたが、決してやったことがありません。P(L1<X¯μ<L2)=ααp(H0|D)p(D|H0)
ネスター

コメントを削除できることには欠点がある場合があります。この場合、急速な変化に追いつくことができませんでした!
枢機

1
信頼区間を計算しない場合、隠されたコインに似たものがあり、コインが頭になる確率が50%であるように、muを含む確率は95%です。」ここでの例えは間違っています。「CIの計算」はコインを明らかにすることとは異なり、「ヘッド」または「テール」を呼び出すことに対応します。この時点では、まだ 50〜50のチャンスがあります。コインを明らかにすることは、の人口値を見ることに対応します。この時点で、「呼び出された」間隔にあるかどうかの質問に答えることができます。OPのパズルは残ります。μ
-Glen_b

1
@vonjd、私はそれについて意味をなさないものを見ません。対戦相手がフラッシュを持っているか、持っていないかは明らかです。前者の場合、確率は(ごくわずか)1であり、後者の場合は0です。したがって、確率が.198であると判断することはできません。それは完全に理にかなっています。ハンドを配る前に、フラッシュが配られる確率について話すのが合理的です。同様に、カードを引く前に、あなたが必要とするスーツを手に入れる確率について話すのは合理的です。あなたがカードを手に入れた、それはそれが何であるかは単純です。
グン

22

議論、推論、論理についての形式的で明示的な考えは、西洋の伝統の中でアリストテレスから生まれました。アリストテレスはこれらのトピックについて、いくつかの異なる作品(トピックスと呼ばれるものを含む;-)で書いています)。ただし、最も基本的な単一の原則は非矛盾の法則であり形而上学を含むさまざまな場所で見つけることができますブックIV、チャプター3および4。典型的な定式化は次のとおりです。その重要性は、少し前に「...これは、他のすべての公理にとっても当然の出発点です」と述べられています(1005 b 30)。哲学をワックスすることを許してください。しかし、この問題は本質的に哲学的な内容を持っています。

この思考実験を考えてみましょう。アレックスはコインをひっくり返して、それをつかみ、手が上を向いた状態で前腕にひっくり返します。ボブはちょうど正しい位置に立っていました。彼はコインをアレックスの手に簡単に見たので、どちらの面が上を向いているかを推測できます。しかし、カルロスはコインを見ませんでした-彼は正しい場所にいませんでした。この時点で、アレックスは、コインが頭を示している確率は何かを彼らに尋ねます。カルロスは、確率が.5であることを示唆しています。これは、ヘッドの長期的な周波数です。ボブは同意せず、確率は正確に0以外の何物でもないと断言します

さて、誰が正しいのでしょうか?もちろん、ボブが誤解して間違っている可能性があります(彼が誤解しなかったと仮定しましょう)。それにもかかわらず、あなたは両方が正しいと非矛盾の法則を保持することを保持することはできません。(もしあなたが非矛盾の法則を信じていないなら、あなたはそれらが両方とも正しいか、または他のそのような定式化を考えることができると思います。)今、同様のケースを想像してください。誰もコインを見なかったので、ボブがいなくても(え?)この場合、非矛盾の法則の適用はそれほど明確ではありませんが、重要と思われる状況の部分が前者から後者まで一定に保たれていることは明らかだと思います。確率を定義しようとする試みは多くありましたが、将来的にはまだまだあるかもしれませんが、しかし、たまたま誰が立っているのか、どこにいるのかという関数としての確率の定義にはあまり魅力がありません。とにかく(フレーズ「信頼区間」)、私たちはフリークエンティストのアプローチの範囲内で作業しており、コインの真の状態を知っているかどうかは関係ありません。それはランダム変数ではなく、実現値であり、頭を示すか、尾を示します。

@Johnが指摘しているように、コインの状態は、最初は信頼区間が真の平均をカバーするかどうかの質問と似ていないように見えるかもしれません。ただし、コインの代わりに、これをパラメーター持つベルヌーイ分布から引き出された実現値として抽象的に理解できます。コインの状況では、p = .5ですが、95%CIの場合、p = .95です。接続を確立する上で重要なのは、比phorの重要な部分が状況を支配するpではなく、反転したコインまたは計算された CIがランダム変数ではなく実現値であることです。 pp=.5p=.95p

ここで重要なのは、このすべてが頻度論の確率の概念に当てはまることです。ベイジアンの視点は非矛盾の法則に違反するものではなく、現実の性質(より具体的には確率に関する)についての異なる形而上学的な仮定から始まります。CVの他の人は、私よりもベイジアンの観点に精通しており、おそらくあなたの質問の背後にある仮定がベイジアンのアプローチに当てはまらない理由を説明するかもしれません。実際、平均の95%の確率あるかもしれません 95%信頼できる範囲内にある(特に)使用された前のものが正確であることを含む特定の条件下での間隔(以下の@DikranMarsupialによるコメントを参照)ただし、頻度論的アプローチの範囲内で作業していると述べた後、特定の95%CI内にある真の平均の確率が.95であるということはありえないことは、すべてが同意すると思います。


5
ベイジアンアプローチでは、実際の値が95%の信頼できる区間にある確率が95%であるというのは事実ではありません。統計値(最初の知識の状態を表す)の特定の事前分布が与えられ、データを観察した後、更新された知識の状態を表す事後分布があると言う方が正しいでしょう。真の価値があることは95%確信しています。これは、事前確率が正確である場合(および尤度の形式などの他の仮定)にのみ正確です。
ディクラン有袋類

@DikranMarsupial、メモをありがとう。それはちょっと一口です。私はあなたの提案とより一致するように答えを編集しましたが、totoにコピーしませんでした。さらに編集が適切かどうかを教えてください。
GUNG

基本的に、ベイジアンアプローチは、関心のあるパラメーターに関する知識の状態のステートメントとして最もよく解釈されます(基本を参照、私は学んでいます; o)が、すべての仮定が正しい場合を除き、その知識の状態が正しいことを保証しません。私は哲学的な議論を楽しんだ、私は次回、ファジー論理を議論する非矛盾の法則を覚えておかなければならない; o)
ディクランMarsupial

12

95%CIが95%の平均を含む可能性を意味しないのはなぜですか?

この質問と与えられた回答の大半では、明らかにすべき多くの問題があります。私はそれらのうちの2つだけに制限します。

a。母集団とはどういう意味ですか?真の母集団とはどういう意味ですか?

母平均の概念はモデルに依存しています。すべてのモデルは間違っていますが、一部は有用であるため、この母平均は、有用な解釈を提供するためだけに定義されたフィクションです。フィクションは確率モデルから始まります。

確率モデルはトリプレット定義されます ここで、Xはサンプル空間(空でないセット)、FXのサブセットのファミリー、PFで定義された明確な確率測度です。

(X,F,P),
XFXPF(データの動作を管理します)。一般性を失うことなく、離散的なケースのみを考慮してください。集団平均はによって定義される つまり、それは下の中心傾向を表すP
μ=xXxP(X=x),
Pそれはまた、全ての点の重心と解釈することができる重量各々の、 XのXは、によって与えられるP X = X XxXP(X=x)

確率理論では、測度は既知であると見なされるため、上記の簡単な操作で母平均にアクセスできます。ただし、実際には、確率Pはほとんどわかりません。確率Pがなければ、データの確率的動作を説明できません。データの振る舞いを説明するために正確な確率Pを設定することはできないため、データの振る舞いをおそらく管理する(または説明する)確率測度を含むファミリMを設定します。次に、古典的な統計モデルが現れます XFM 上記のモデルは、Θが存在する場合、パラメトリックモデルと呼ばれます。PPPPM

(X,F,M).
P < ように M{ Pのθθ Θ }。この投稿のパラメトリックモデルだけを考えてみましょう。ΘRpp<M{Pθ: θΘ}

各確率測度のために、ことに注意してください 、それぞれの平均の定義が存在する μ θ = Σ のx X X P θX = X PθM これは、人口の手段の家族があり、ある { μのθθ Θ }の定義に厳密に依存 Mが。ファミリー M

μθ=xXxPθ(X=x).
{μθ: θΘ}MMは限られた人間によって定義されているため、データの動作を支配する真の確率測度が含まれていない場合があります。実際には、選択されたファミリには真のメジャーがほとんど含まれません。さらに、この真のメジャーが存在しない場合もあります。母平均の概念はの確率測度に依存するため、母平均はモデルに依存します。M

ベイジアンのアプローチでは、(または同等にΘ)のサブセットに対する事前確率を考慮しますが、この記事では古典版のみに集中します。MΘ

b。信頼区間の定義と目的は何ですか?

前述のように、母平均はモデルに依存し、有用な解釈を提供します。ただし、統計モデルは確率測度のファミリによって定義されるため、母集団平均のファミリがあります(各確率測度は母平均を生成します)。したがって、実験に基づいて、母集団平均の適切な候補を含む小さなセット(間隔)を推定するために、推論手順を使用する必要があります。1つの周知の手順である(セットによって定義された信頼領域)C α1αCαように、全てのためにP θC αX μθΘここで、 P θC αX = = 0(Schervish、1995を参照されたいです)。これは非常に一般的な定義であり、事実上あらゆるタイプの信頼区間を含みます。ここで、 P θC αX

Pθ(Cα(X)μθ)1α   and   infθΘPθ(Cα(X)μθ)=1α,
Pθ(Cα(X)=)=0確率である C αX 含有 μをθを測定下のP θは。この確率は常に 1 - αよりも大きい(または等しい)必要があり、最悪の場合に等しくなります。Pθ(Cα(X)μθ)Cα(X)μθPθ1α

注釈:読者は、現実の状態を仮定する必要はないことに注意する必要があります。信頼領域は、「真の」平均を参照することなく、明確に定義された統計モデルに対して定義されます。「真の」確率尺度が存在しない場合やにない場合でも、信頼領域の定義は機能します。これは、仮定が現実の状態ではなく統計モデリングに関するものであるためです。M

一方では、前のデータを観察し、ランダムセット(またはランダムな間隔)であり、「確率C αXは平均含まμ θをCα(X)Cα(X)μθあり、少なくとも、」すべてのためのθの∈のθ。これは、頻繁なパラダイムにとって非常に望ましい機能です。(1α)θΘ

一方、後のデータの観察Cのαxはだけ固定セットと「確率ですC αxCα(x)平均含ま μ θは、」すべてのために{0,1}であるべきである θ ΘCα(x)μθθΘ

つまり、データxを観察した、確率論的推論を使用できなくなります。私が知る限り、観測されたサンプルの信頼セットを扱う理論はありません(私はそれに取り組んでおり、いくつかの素晴らしい結果を得ています)。しばらくの間、frequentistは、観察セット(または間隔)のことを信じなければならないC αX の一つである1 - α xCα(x)含有そのセット μをθの全てについては、 θ Θを(1α)100%μθθΘ

PS:私の投稿にコメント、レビュー、批評、または異議を申し立てる。それについて詳しく説明しましょう。私は英語を母国語としないので、私の投稿には間違いや誤字が含まれています。

参照:

Schervish、M.(1995)、Theory of Statistics、Second ed、Springer。


誰もがそれを議論したいですか?
アレクサンドルパトリオタ14年

4
ディスカッションはチャットで行うことができますが、メインサイトでは不適切です。この仕組みの詳細については、ヘルプセンターをご覧ください。それまでの間、私はあなたの投稿のフォーマットに困惑しています。ほとんどすべてが引用としてフォーマットされています。公開されたソースからこの資料を抽出したか、この回答用に新しく作成されたものですか 後者の場合は、引用を削除してください!
whuber

2
(+1)。印象的な明確な概要をありがとう。当サイトへようこそ!
whuber

11

「The Likelihood Principle」の第2章で説明されている本質的に役に立たない75%信頼区間のバーガーの例を提起していないことに驚いています。詳細は元のテキスト(Project Euclidで無料で入手可能)に記載されています。この例で重要なのは、あなたが知っている状況を明確に説明することですは、一見未知のパラメーターの値を絶対的に確実にデータを観察しますが、間隔に真の値が含まれているという確信75%に過ぎないと断言します。その例の詳細に取り組むことで、信頼区間を構築するロジック全体を理解することができました。


8
頻度設定では、そもそもCIに関して「間隔に真の値が含まれていることを75%しか確信できない」と主張することはありません。ここに、問題の核心があります。:)
枢機

1
その例への直接リンク/ページ参照を提供できますか?章を検索しましたが、正しい例を特定できませんでした。
ロナルド

@Ronald:第2章の最初のページの最初のページです。直接リンクは歓迎すべき追加です。
枢機

1
要求に応じてリンクします。 ああ、はい。この例の中では明らかです。実験を行うと、結果の信頼区間平均含まれる可能性が75%あります。実験が完了し、どのように結果が出るかがわかったら、結果のサンプルの分布に応じて、その確率は異なる場合があります。
ロナルド

7

これが新しい質問として尋ねられるべきかどうかはわかりませんが、思考実験を提案することで、上記の質問とまったく同じ質問に取り組んでいます。

まず、標準のデッキからランダムにトランプを選択した場合、クラブを(選択せずに)選択した確率は13/52 = 25%であると仮定します。

次に、95%の信頼区間は実験を複数回繰り返すという観点から解釈されるべきであり、計算された区間には95%の時間の真の平均が含まれることが何度も述べられています。シミュレーション。ほとんどの人は、95%CIのこの解釈を受け入れているようです。

さて、思考実験のために。大規模な人口-おそらく成人男性または女性の身長に正規分布変数があると仮定しましょう。私は、母集団から特定のサンプルサイズの複数のサンプリングプロセスを実行し、各サンプルのサンプル平均と95%信頼区間を計算することを任せてくれる、意欲的で疲れのないアシスタントを持っています。私のアシスタントは非常に熱心で、母集団からのすべての可能なサンプルを測定することに成功しています。次に、各サンプルについて、アシスタントは結果の信頼区間を緑(CIに真の平均が含まれている場合)または赤(CIに真の平均が含まれていない場合)として記録します。残念ながら、私のアシスタントは彼の実験の結果を見せてくれません。人口の成人の身長に関する情報を取得する必要がありますが、時間はありますが、実験を一度行うためのリソースと忍耐。(アシスタントが使用するサンプルサイズと同じ)ランダムサンプルを1つ作成し、信頼区間を計算します(同じ式を使用)。

アシスタントの結果を見る方法がありません。だから、私が選択したランダムサンプルが緑のCIを生成する確率はどのくらいですか(つまり、間隔には真の平均が含まれます)?

私の考えでは、これは前に概説したトランプの状況と同じであり、計算された間隔に真の平均が含まれる(つまり緑である)95%の確率であると解釈できます。それでも、95%の信頼区間が真の平均を含む95%の確率があるため、95%の信頼区間を解釈できないというのがコンセンサスのようです。上記の思考実験での推論がバラバラになるのはなぜですか?


+1これは、正常な母集団からバイナリサンプリング状況への概念的な進行の非常に明確な説明です。私たちと共有してくれてありがとう、そして私たちのサイトへようこそ!
whuber

これを質問として投稿してください。
ジョン

コメントありがとう、ジョン。現在、別の質問として投稿しています(stats.stackexchange.com/questions/301478/…)。
user1718097

4

θ(X1,X2,,Xn)100p%

P(g(X1,X2,,Xn)<θ<f(X1,X2,,Xn))=p

θg(X1,X2,,Xn)f(X1,X2,Xngバツ1バツ2バツnfバツ1バツ2バツn

そのため、間隔に含まれるパラメーターの確率に関する情報を提供する代わりに、間隔がランダム変数から作成されるため、パラメーターを含む間隔の確率に関する情報を提供します。


3

実用的な目的のために、あなたはあなたの95%CIが95:5オッズで真の平均を含んでいることに賭けるのは間違っていません。

あなたの友人がすでにコインを裏返し、それが頭である確率が50%であると思うなら、あなたは単語確率の異なる定義を使用しているだけです。他の人が言ったように、フリークエントの場合、発生したイベントに確率を割り当てることはできませんが、特定のプロセスを使用して、将来発生するイベントの確率を記述することができます。

別のブログから:頻繁に言う:「特定の出来事は確率を持つことができません。コインは頭か尾のどちらかを示します。あなたがそれを見せない限り、私は単に事実を言うことはできません。何度も何度も、トスの初期条件を十分に大きく変化させた場合、すべてのトスの頭の相対的な頻度は0.5 "に近づくと予想されます。 http://www.researchgate.net/post/What_is_the_difference_between_frequentist_and_bayesian_probability


2
そのブログは、ストローマンの議論のように聞こえます。確率モデルを作成する能力にある種の(存在しない)固有の制限と確率の哲学を混同しているようです。私は、その特徴づけにおいて古典的な統計手順または方法論のいかなる形態も認めません。それにもかかわらず、あなたの最終的な結論は良い結論だと思いますが、賭けが平均ではなくCIに関係していることを明確にしないことで、それが使用する言語は、この質問が対処することを意図した混乱の形を作り出すリスクがあります。
whuber

1
私がよく使用する方法の1つは、CIが手順の結果であることを強調することです。あなたの最終的な声明について私が気に入っているのは、「あなたの95%信頼区間が真の平均をカバーしているという95:5のオッズで賭けをするのはもう間違っていません50:50のオッズで友人のコインフリップに賭けます。」
whuberの

OK、変更しました。
ナイジェルヘンリー

2

特定のデータセットから計算したCIは、平均を含まない可能性のあるCIの5%の1つであるとします。想像したい95%の信頼区間にどれくらい近いですか?(つまり、95%の確率で平均を含むことにどれだけ近いのでしょうか?)それがまったく近いという保証はありません。実際、CIは、実際に平均を含む95%CIの95%CIの1つと重複しない場合があります。平均自体が含まれていないことは言うまでもなく、これは95%の信頼できる間隔ではないことも示唆しています。

これを無視して、CIが平均を含む95%の1つであると楽観的に仮定したい場合があります。わかりました。95%に含まれているCIについて知っていますか?それには平均値が含まれているが、平均値の反対側にある他のすべてのものを除外して、おそらく極端な場合にしか解決できない。分布の95%を含む可能性は低いです。

いずれにしても、95%CIが95%信頼区間であるという妥当な希望すら保証されません。


私は最初の段落に興味があります。おそらく私はそれを誤解していますが、議論はCIと信頼できる間隔が一致する複数の例があるという事実と少し対立しているようですすべての可能な観測セットでするです。私は何を見逃しましたか?
枢機

@cardinal:私は間違っているかもしれません。私は一般的なケースについて話していましたが、CIと信頼できる間隔が同じ場合には、CIが遠すぎないようにする正規性などの他の制限があると思います。
ウェイン

私の焦点は、段落の最後の文に最も強く引き付けられました。一致する間隔の例は、ポイントを強調するためのものでした。その文を本当に信じているかどうかを検討するかもしれません。:)
枢機

あなたは、95%CIは、5%がないことを意味するものではないことを意味するかではない平均が含まれていますか?「定義により、平均自体を含める必要はない」と言う必要がありますか?それとも私はさらに不足していますか?
ウェイン

ウェイン、特定の間隔が平均を含まないという事実は、それが有効な信頼できる間隔であることをどのように排除しますか?この発言を読み違えていますか?
枢機

2

(つまり、友人が公正なコインを裏返し、結果を非表示にし、50%の可能性があると言ってはいけません)

友達のコインが50%の頭/尾でコインフリップしていると推測しているだけなら、それは正しくありません。

  • コインが着地した後/着いたとき、そして結果が隠される前に、コインを素早く見るようにしてください。
  • また、事前にコインの公平性の推定値を作成してみてください。

コインフリップについての推測の信頼性は、これらの条件に依存し、常に同じ50%であるとは限りません(「不正行為」の方がうまく機能する場合があります)。

全体的な推測は、チートした場合、x> 50%の確率で正しいかもしれませんが、それは必ずしも特定のスローの確率が常にx%のヘッドであるという意味ではありません。したがって、全体的な確率を特定の投球の確率に投影するのは少し奇妙です。それは別の「確率のタイプ」です。


'probability'を指定/定義するレベルまたは深さについては少しです。

  • 信頼度は、「特定の実験/フリップにおける特定の確率」から独立しており、「事前確率」から独立しています。

  • 自信は実験アンサンブルについてです。これは、母集団のアプリオリ確率または分布を知る必要がないように構築されています。

  • 自信は 、推定全体的な「故障率」に関するものですが、特定のケースでは、確率のより正確な変動を指定できる場合があります。

    確率のこれらの変動は、少なくとも暗黙的に存在します理論にはにし、それらが存在するためにそれらを知る必要はありません。しかし、ベイズのアプローチを使用してこれらの確率を明示的に表現できます)。


例1:

非常にまれな病気の検査をしているとしましょう。高いベルヌーイ試行(肯定または否定)と見なされる可能性のあるテストを実行します。p=0.99p=0.01

p0.05p10p0.95

人口の1%が病気の場合、平均してテストの1.98%が陽性になります(99%の健康な人から1%が陽性、1%の病気から99%が陽性)。 これにより、95%CI間隔が作成され、、陽性のテスト遭遇したときに(条件付き)になり、正しい時間の50%のみが修正されます。

一方、ネガティブテストに遭遇すると、95%以上の時間が正確になるため、全体的にCI間隔の推定値は(少なくとも)95%正しいですが、ケースバイケースで(特定の場合)あなたは本当にその確率を言うことはできません p区間内のが95%である。おそらくいくつかのバリエーションがあります。

例2:

Nμσ2μ

μN10015。極端な場合、結果の結果が低または高である場合、測定/テストに基づいた95%信頼区間での人のIQの確率は95%より低くなります。

(結果が100に近い人には反対のことが当てはまります。IQは95%-CI内で95%を超える可能性が高く、これにより極端な間違いを補うはずです。 95%のケースで)


2

最初に、信頼区間の定義、または1より大きい次元の空間での信頼領域の定義を行いましょう。この定義は、Jerzy Neymanが1937年に英国王立協会に提出した論文の簡潔なバージョンです。

pspApαprobsApα|p=p=ααps=sCsα={p|sApα}

α

p

[pCsα]probs=s|p=pds=[sApα]probs=s|p=pds=α

[pCsα]pαppp

s=s

probpCsα|s=s=Csαprobs=s|p=pprobp=p|dpprobs=s|p=pprobp=p|dp

この確率は α 特定の情報の組み合わせのみ および受け入れ領域 Apα。たとえば、事前分布が均一で、サンプリング分布が対称である場合s そして p (例えば、 p 平均として)、その後:

probpCsα|s=s=Csαprobs=p|p=sdpprobs=p|p=sdp=probsCsα|p=s=probsAsα|p=s

さらに、受け入れ領域がそのようなものである場合 sAsαsAsα、その後:

probpCsα|s=s=probsAsα|p=s=α

通常の統計について構築された標準信頼区間で母平均を推定する教科書の例は、前述の仮定の特別な場合です。したがって、標準の95%信頼区間に、確率0.95の平均含まれます。しかし、この対応は一般的に成り立ちません。


-1

ここにはいくつかの興味深い答えがありますが、Rを使用した実践的なデモを少し追加すると思いました。最近、このコードを統計コースで使用して、信頼区間がどのように機能するかを強調しました。コードの機能は次のとおりです。

1-既知の分布からサンプリングします(n = 1000)

2-各サンプルの平均の95%CIを計算します

3-各サンプルのCIに真の平均が含まれているかどうかを尋ねます。

4-真の平均を含むCIの割合をコンソールで報告します。

スクリプトを何度も実行しましたが、実際には、CIの94%未満が真の平均値を含んでいることを見つけるのはそれほど珍しいことではありません。少なくとも私にとって、これは信頼区間が本当のパラメーターを含む確率が95%であるという考えを払拭するのに役立ちます。

#   In the following code, we simulate the process of
#   sampling from a distribution and calculating
#   a confidence interval for the mean of that 
#   distribution.  How often do the confidence
#   intervals actually include the mean? Let's see!
#
#   You can change the number of replicates in the
#   first line to change the number of times the 
#   loop is run (and the number of confidence intervals
#   that you simulate).
#
#   The results from each simulation are saved to a
#   data frame.  In the data frame, each row represents
#   the results from one simulation or replicate of the 
#   loop.  There are three columns in the data frame, 
#   one which lists the lower confidence limits, one with
#   the higher confidence limits, and a third column, which
#   I called "Valid" which is either TRUE or FALSE
#   depending on whether or not that simulated confidence
#   interval includes the true mean of the distribution.
#
#   To see the results of the simulation, run the whole
#   code at once, from "start" to "finish" and look in the
#   console to find the answer to the question.    

#   "start"

replicates <- 1000

conf.int.low <- rep(NA, replicates)
conf.int.high <- rep(NA, replicates)
conf.int.check <- rep(NA, replicates)

for (i in 1:replicates) {

        n <- 10
        mu <- 70
        variance <- 25
        sigma <- sqrt(variance)
        sample <- rnorm(n, mu, sigma)
        se.mean <- sigma/sqrt(n)
        sample.avg <- mean(sample)
        prob <- 0.95
        alpha <- 1-prob
        q.alpha <- qnorm(1-alpha/2)
        low.95 <- sample.avg - q.alpha*se.mean
        high.95 <- sample.avg + q.alpha*se.mean

        conf.int.low[i] <- low.95
        conf.int.high[i] <- high.95
        conf.int.check[i] <- low.95 < mu & mu < high.95
 }    

# Collect the intervals in a data frame
ci.dataframe <- data.frame(
        LowerCI=conf.int.low,
        UpperCI=conf.int.high, 
        Valid=conf.int.check
        )

# Take a peak at the top of the data frame
head(ci.dataframe)

# What fraction of the intervals included the true mean?
ci.fraction <- length(which(conf.int.check, useNames=TRUE))/replicates
ci.fraction

    #   "finish"

お役に立てれば!


2
批判をおologiesびしますが、私は(一時的に)この答えに反対票を投じなければなりませんでした。私はそれが信頼区間の意味を誤解していると信じており、これがあなたのクラスで使用されている議論ではなかったことを心から願っています。シミュレーションは、(かなり精巧な)二項サンプリング実験に還元されます。
枢機

5
@cardinal Well ...彼は、頻繁な統計の長期的な解釈を使用しているだけです。母集団から何回もサンプルを採取し、CIを何度も計算すると、95%のCIに真の平均が含まれていることがわかります(1α=0.95)。少なくともそれは私にはかなり明らかだった。
ネスター

4
1000個のCIのサンプルの「94%未満」は、CIの95%に平均が含まれているという考えに対する確かな重要な証拠ではありません。実際、この場合、CIの95%に実際に平均が含まれると予想されます。
ロナルド

3
@ロナルド:はい、これはコメントで正確に私のポイントでしたが、あなたはそれをはるかに簡単かつ簡潔に言っています。ありがとう。コメントの1つで述べたように、940個以下の成功が約8.7%の時間で見られます。これは、1000回の実験の間に構築される95%CI について同様です。:)
枢機

2
@JamesWaters:お返事ありがとうございます。コードは問題ありませんが、「正しくないインスタンスを示す」方法はわかりません。その意図を説明できますか?私は今でも根本的な誤解があるのではないかと疑っています。私のCIとは何か、そしてそれを正しく解釈する方法を理解しているようですが、シミュレーション実験は、あなたがそれが応答すると主張しているように見える質問に応答しません。この答えには潜在的な可能性があると思うので、最終的にはあなたが理解しようとしているポイントを明確にするための素晴らしい編集が必要です。乾杯。:)
枢機
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.