信頼区間はいつ有用ですか?


30

私が正しく理解している場合、パラメーターの信頼区間は、指定された割合のサンプルの真の値を含む区間を生成する方法によって構築された区間です。したがって、「信頼」は、特定のサンプルから計算する間隔ではなく、方法に関するものです。

統計のユーザーとして、すべてのサンプルのスペースは仮想的なものであるため、私は常にこれにだまされていると感じています。私が持っているのは1つのサンプルであり、そのサンプルがパラメーターについて教えてくれることを知りたいです。

この判断は間違っていますか?少なくとも状況によっては、統計のユーザーにとって意味のある信頼区間を調べる方法はありますか?

[この質問は、math.seの回答で信頼区間を分析した後の2番目の考えから生じますhttps://math.stackexchange.com/questions/7564/calculating-a-sample-size-based-on-a-confidence-level/7572 #7572 ]

回答:


15

CIは仮説テスト(HT)フレームワーク、少なくともNeymanのアプローチに従うバイナリ決定フレームワークを回避し、何らかの方法で測定の理論に沿った何らかの方法としてCIを考えるのが好きです。より正確に言えば、私はそれらを推定の信頼性に近く(例えば、平均の差)、そして逆にHTはその落とし穴(仮説を受け入れられない、代替は多くの場合、確率論など)。それでも、区間推定とHTの両方で、ほとんどの場合、分布の仮定(サンプリング分布など)に依存する必要があります。これにより、サンプルから一般母集団または代表母集団(少なくとも頻繁なアプローチ)。H0

H0

代替テキスト

つまり、HTフレームワーク(左)では、統計がnullからどれだけ離れているかを確認し、CI(右)では、ある意味で「統計から」のnull効果を確認します。

また、オッズ比のような特定の種類の統計では、HTは無意味であることが多いため、非対称である関連CIを調べて、関連の方向と精度(ある場合)に関するより関連性の高い情報を提供することをお勧めします。


なぜ仮説検定は、他の効果推定値よりも多く、オッズ比に対してしばしば無意味であると言うのですか?その代わり、信頼区間は、オッズ比や有限サンプルの非対称サンプリング分布のその他の推定値の標準誤差よりも有用であることを強調します。
ワンストップ

@onestopさて、「非対称サンプリング分布」についてあなたが言うことを部分的に考えていました(そして、私はそれほど明確ではなかったようですが)、疫学研究では一般的にCIに最も興味があるという事実(それはつまり、推定値はHTよりも正確です)。
chl

+1。これは、私があなたのスクリプトを使用して、さまざまなことを試したり、飛び込んだり、いろいろなものを変更したりして漸近線を学習していることを思い出させます。始めてくれてとても助かりました。
アルス

@ars実際、この写真はPStricksで作成されたことを覚えているようです。とにかく、Asymptoteの適切な出発点はpiprime.fr/asymptoteです。
chl

@chl、これはトピック外かもしれませんが、これらのグラフをRで作成したかどうか教えていただけますか?
-suncoolsu

7

2番目のQに関連する代替アプローチ、「少なくとも状況によっては、統計のユーザーにとって意味のある信頼区間を調べる方法はありますか?」:

ベイジアン推論とその結果の信頼できる間隔を確認する必要があります。95%の信頼できる間隔、真のパラメーター値が含まれる確率が95%であると思われる間隔として解釈できます。あなたが支払う代償は、データを収集する前に、真のパラメータが取る可能性が高いと思われる値に事前の確率分布を置く必要があるということです。また事前分布は他の誰かの事前分布と異なる場合があるため、同じデータを使用した場合でも、結果の信頼できる間隔も異なる場合があります。

これは要約するための私の素朴で粗雑な試みにすぎません!実際に焦点を当てた最近の良い教科書は次のとおりです。

アンドリュー・ゲルマン、ジョン・B・カーリン、ハル・S・スターン、ドナルド・B・ルービン。「ベイジアンデータ分析」(第2版)。Chapman&Hall / CRC、2003。ISBN978-1584883883


ありがとう。しかし、特に頻度主義者の信頼区間はどうでしょうか?関連する状況はありますか?
Jyotirmoy Bhattacharya

事前の状況が異なることは、(少なくとも客観的なベイジアンの観点からは)問題ではないと思います。もしあなたが目の前の状況について異なる知識を持っていることが起こるなら。事前情報をキャストする方法として、事前情報を確認することにしました。私は...それは単純ではないことを知っている
テウクロス

ベイズ対frequentistについて@Jyotirmoyは興味深い点は、ここで作られた、アプローチ:stats.stackexchange.com/questions/1611/...
CHL

6

不確実なもの既知のものとの区別を否定しているので、この質問の前提に欠陥があると思う。

コインフリップを記述することは、良い類似性を提供します。コインが裏返されるまで、結果は不確実です。その後、「仮説的」ではなくなりました。このフェイトを私たちが理解したい実際の状況(コインの振る舞い、またはその結果の結果としてなされる決定)と混同することは、世界を理解する確率の役割を本質的に否定します。

この対比は、実験または規制の分野で明確に緩和されています。そのような場合、科学者または規制当局は、事前にいつでも結果が不明な状況に直面することを知っていますが、実験の設計方法や規制の順守の判断に使用する基準の確立など、重要な判断を下す必要があります(薬物検査、職場の安全、環境基準など)。これらの人々と、彼らが必要に作業するための機関方法の知識とそれらのメソッドの確率的特性を、このような良好な実験デザインと公正な決定手続きとして最適と防御の戦略を開発するために、可能な限りわずかERRいます。

信頼区間は、古典的に不十分な正当化にもかかわらず、この決定理論の枠組みに適合します。ランダムな間隔を構成する方法は、間隔の最小予想カバレッジを確保し、間隔の予想される長さを最小限として良好な特性の組み合わせを有する場合-これらの両方先験的な特性ではなく、事後のもの-その後上その方法を使用してきた長いキャリアにより、その方法によって示されるアクションに関連するコストを最小限に抑えることができます。


信頼区間を使用して決定を下す例を示してください。または、より良いのは、2つの信頼区間を比較し、それぞれの周波数区間で異なる決定を行う方法を、頻度主義のフレームワークで完全に維持しながら比較することです。
BrainPermafrost

@Brain入門的な統計の教科書は、そのような例を提供します。ひどく頻繁にいるのは、フリードマン、ピサニ、パーベス、統計(すべてのエディション)です。
whuber

6

95%信頼区間は、期待値を含む可能性が95%である個々の区間ではなく、ケースの95%で機能する方法を使用した結果であると言うのは正しいことです。

「信頼限界の論理的根拠と解釈は、今でも論争の的です。」{デビッド・コルフーン、1971年、生物統計学の講義}

この引用は、1971年に発行された統計教科書から引用されていますが、2010年も依然として真実であると主張します。2項比率の信頼区間の場合、論争はおそらく最も極端です。それらの信頼区間を計算するための多くの競合する方法がありますが、それらはすべて1つ以上の意味ですべて不正確であり、最悪のパフォーマンスの方法でさえ教科書著者の間で支持者がいます。いわゆる「正確な」区間でさえ、信頼区間に期待される特性が得られません。

ジョンルドブルックと私は、外科医向けに書かれた論文(統計に関心があることで広く知られています!)すべての真の割合で正確に95%のカバレッジ)、しかし、重要なことに、観察されたすべての割合ではるかに優れたカバレッジ(正確に95%のカバレッジ)。対象読者のために、この論文はそれほど詳細ではないため、すべての統計学者を納得させることはできませんが、私は結果と正当性の完全なセットを含むフォローアップ論文に取り組んでいます。

これは、ベイジアンアプローチが頻繁なアプローチと同じくらいの頻度のプロパティを持っているケースで、かなり頻繁に発生します。均一な事前分布の仮定は、人口比率の均一な分布が、私が遭遇した頻度の高いカバレッジのすべての計算に組み込まれているため、問題にはなりません。

「少なくとも、ある状況では、統計のユーザーにとって意味のある信頼区間を見る方法はありますか?」私の答えは、二項信頼区間では、観測されたすべての割合に対して正確に95%の時間の母集団の割合を含む区間を取得できるということです。それはイエスです。ただし、従来の信頼区間の使用では、すべての母集団の割合がカバーされることが期待されているため、答えは「いいえ」です。

質問に対する回答の長さ、およびそれらに対するさまざまな回答は、信頼区間が広く誤解されていることを示唆しています。目的をすべての真のパラメーター値のカバレッジからすべてのサンプル値の真のパラメーター値のカバレッジに変更すると、間隔は、パフォーマンスのパフォーマンスではなく、観測値に直接関連するようにシェーピングされるため、より簡単になる可能性がありますメソッド自体。


5

これは素晴らしい議論です。ベイズの信頼できる間隔と尤度サポートの間隔が重要であり、関心のあるイベントのベイズの事後確率(たとえば、薬が有効である)があると感じています。しかし、信頼区間を使用してP値を置き換えることは大きな利点です。NEJMやJAMAなどの最も優れた医学雑誌のほぼすべての問題には、アブストラクトに「証拠の不在は不在の証拠ではない」という問題がある論文があります。信頼区間を使用することで、このような失敗を大幅に防ぐことができます。すばらしい小さなテキストはhttp://www.amazon.com/Statistics-Confidence-Intervals-Statistical-Guidelines/dp/0727913751です


3

質問に直接対処するには:マシンを使用して、シリアルボックスに一定量のシリアルを入れることを考えているとします。明らかに、ボックスを塗りつぶしたり、塗りつぶしたりしたくありません。マシンの信頼性を評価する必要があります。次のような一連のテストを実行します。(a)マシンを使用してボックスに充填し、(b)ボックスに充填されているシリアルの量を測定します。

収集されたデータを使用して、マシンが箱に入れる可能性が高い穀物の量の信頼区間を構築します。この信頼区間は、取得した区間が、マシンが箱に入れる真の量の穀物を含む可能性が95%であることを示しています。あなたが言うように、信頼区間の解釈は、検討中のメソッドによって生成された仮想の見えないサンプルに依存しています。しかし、これはまさに私たちの文脈で欲しいものです。上記の文脈において、我々はなりますボックスを埋めるために繰り返しマシンを使用し、したがって、私たちは機械が箱を埋め穀物の量の仮想的な、目に見えないの実現を気に。

上記の文脈から抽象離れに:信頼区間は、私たちに与え保証我々は調査中のメソッドを使用した場合(上記の例の方法では=マシンが)ことを繰り返し信頼区間が真のパラメータを持っていることを95%の確率があるが。


2
μσ2μ

1
@Jyotirmoyもちろん、特定のCIは脱落する可能性があります。つまり、CIに真の値が含まれていない可能性は5%です。それでも、私が与えた解釈は、CIが実際に構築される方法と一致しています。メソッドを繰り返し使用することを想像し、観測されたCIに真の値が含まれる確率が0.95になるようにCIを構築します。私の答えは、真の値が実際に存在する確率については何も言っていないことに注意してください。これは、信頼区間ではなく信頼区間でのみ作成できるステートメントであるためです。

1
(100α)H0tz

@スリカント。私はおそらく答えで「method = machine」を誤解していました。組立ラインから出てくるすべての箱の95%が、箱の特定のサンプルから導き出された95%信頼区間内の重量を持っていると言っていると思います。
Jyotirmoy Bhattacharya
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.