信頼区間は役に立ちますか?


11

頻出統計では、95%信頼区間は、時間を生成する手順であり、無限の回数を繰り返すと、95%の時間で真のパラメーターが含まれます。なぜこれが便利なのですか?

信頼区間はしばしば誤解されます。これらは、パラメーターが含まれていることを95%確実にすることができる間隔ではありません(同様のベイズ信頼性間隔を使用している場合を除く)。信頼区間は、私にとって餌とスイッチのように感じます。

私が考えることができる1つの使用例は、パラメーターがその値であるという帰無仮説を棄却できなかった値の範囲を提供することです。p値はこの情報を提供しませんか?それほど誤解を招くことなく、

つまり、信頼区間が必要なのはなぜですか?正しく解釈すると、それらはどのように役立ちますか?



ベイズ信頼性区間我々は、特定のパラメータがである95%できることインターバルでもありません。
セクストス・エンペイリコス

@MartijnWeterings:あなたがあなたの前の100%確実でない限り。
西安

西安@その作品際のパラメータ 100%合理的確率変数とみなされ、実験が共同頻度分布からのサンプリングのようなものであることが特定、つまりは、使用ベイズ則として:明示的な 'prior'なし。固定と見なされるパラメーターについては同じではありません。次に、事後信念では、と古い共同頻度分布も「更新」する必要があります。100%確実であった「事前の信念」を更新していると主張するのは少しばかげています。P θ X P θ | X = P θ X / P X θP(θ,x)P(θ|x)=P(θ,x)/P(x)Xθ
Sextus Empiricus

回答:


10

信頼区間がランダムとして扱われる限り(つまり、データをまだ見ていないランダム変数のセットとして扱うという観点から見た場合)、確かにそれについて有用な確率ステートメントを作成できます。具体的には、パラメーターレベル信頼区間があり、その区間に境界ます。それから私たちはそれを言うことができます:1αθL(x)U(x)

P(L(X)θU(X)|θ)=1αfor all θΘ.

頻度主義のパラダイムの外に移動し、以前の分布についてを限界化すると、対応する(弱い)限界確率の結果が得られます。θ

P(L(X)θU(X))=1α.

データをに修正して信頼区間の境界を修正すると、データを修正したので、この確率ステートメントにアピールできなくなります。ただし、信頼区間がランダムな区間として扱われる場合、実際にこの確率ステートメントを作成できます---つまり、確率指定すると、パラメーターは(ランダムな)区間内に収まります。X=x 1 - α θ1αθ

頻度論的統計では、確率ステートメントは、無限に繰り返された試行の相対頻度に関するステートメントです。しかし、これは頻出主義パラダイムのすべての確率ステートメントに当てはまるため、相対頻度ステートメントに対する異議がある場合、それは信頼区間に固有の異議ではありません。頻度主義のパラダイムの外に移動する場合、この確率ステートメントをわずかに(つまり、データに条件を付けずに)作成し、信頼区間を処理する限り、信頼区間には望ましい確率のターゲットパラメーターが含まれていると正当に言えます。そのランダムな意味で。

他の人については知りませんが、それはかなり強力な確率の結果であり、この形式の区間の妥当な正当化であると私には思われます。私自身もベイジアン手法に不慣れですが、信頼区間(ランダムな意味で)を裏付ける確率結果は、手探りするべきではない強力な結果です。


1
「頻出主義のパラダイムの外に移動する」というのは、まさに問題ではありませんか?一般的に、ある確率で対象のパラメーターの真の値を含む区間が必要です。それをベイジアン分析と誤解する誤解を招くものとして暗黙的に再解釈することはできません。ベイズの信頼できる間隔を介して質問に直接回答することをお勧めします。品質管理など、「実験」を繰り返し行う信頼区間の用途があります。
Dikran Marsupial

それは暗黙的にベイジアンとして再解釈することではありません(後者はデータを条件付けして事後を取得します)。答えは、信頼区間に関する有用な確率ステートメントを作成できるというOPを示しているだけです。頻出主義パラダイムに対するより一般的な異議に関しては、それらはよくて良いですが、信頼区間に固有の異議ではありません。
ベン-モニカを

1
上記の確率ステートメントからわかるように、これをアプリオリに見ている限り、CIにある程度の確率でパラメーターが含まれていることを保証できます。
ベン-モニカを

1
頻出主義のパラダイムから脱却したが、ベイジアンフレームワークに移行していない場合、どのフレームワークですか?私は頻繁に異議を唱えていませんでした。実際に提起したい質問に最も直接答えるフレームワークを使用するべきだと思います。信頼性と信頼できる間隔は、さまざまな質問に答えます。
Dikran Marsupial

1
@Dikran:確率ステートメントは書かれたとおりであり、純粋な数学的ステートメントです。私はあなたがこれに合理的に反対することができる方法を本当に見ていません。
ベン-モニカを

5

上記の@Benに同意し、ベイジアン対フリークエンティスト間隔が同じ状況で価値がある場合の簡単な例を提供すると思いました。

平行な組立ラインを持つ工場を想像してみてください。ラインを停止するにはコストがかかると同時に、高品質の製品を生産したいと考えています。彼らは、長期にわたる偽陽性と偽陰性の両方を懸念しています。工場にとって、それは平均化プロセスです。誤検知に対する電力と保証された保護の両方が重要です。信頼区間と許容区間は工場にとって重要です。それでも、マシンはの位置合わせから外れ、検出装置は偽のイベントを観察します。特定の結果が運用上の詳細である一方で、平均結果が重要です。θΘ

これの反対側には、単一の顧客が単一の製品または単一の製品ロットを購入しています。彼らは、組立ラインの繰り返し特性を気にしません。彼らは購入した1つの製品を気にします。顧客がNASAであり、仕様を満たす製品(など)が必要であると想像してください 彼らは購入しなかった部品の品質を気にしません。彼らは何らかの形のベイジアン区間を必要とします。さらに、1つの障害が多くの宇宙飛行士を殺し、数十億ドルの費用がかかる可能性があります。購入したすべての部品が仕様を満たしていることを知る必要があります。平均化は致命的です。土星Vロケットの場合、1%の欠陥率は、アポロ飛行中に10,000の欠陥部品を意味します。彼らはすべてのミッションで0%の欠陥を要求しました。γΓ.

工場が行っているサンプル空間で作業しているときに、信頼区間があることを心配しています。サンプルスペースを作成しています。顧客が行うように、パラメーター空間で作業しているときは、信頼できる間隔について心配します。あなたが自分の外の観察を気にしないなら、あなたはベイジアンです。見られなかったが見られた可能性のあるサンプルに関心がある場合、あなたはフリークエントリストです。

長期平均または特定のイベントに関心がありますか?


NASAは実際にベイジアン間隔に基づいて部品を購入しますか?あなたの言い分は理解しましたが、実際にそうしていますか?
Aksakal

@Aksakalわからない。ジュランはもちろん、NASAでの品質保証に関する素晴らしい作品を書いていますが、テストプロセスを議論してからそれを読んでから10年以上経っているので、まったく思い出せません。Wエドワーズデミングが信頼できる間隔を支持して信頼区間に反対していたことを知っていますが、これは直接関係ありません。私の推測では、知っている人は知っていますが、現時点で質問するのは不便です。それは、ほとんどの人が訓練を受けているため、頻繁な方法を使用しているということです。あなたが持っているハンマーを使用します。
Dave Harris、

「ハンマー」の場合ですか?多分それは物事がエンジニアリングにある方法と関係があるのでしょうか?
Aksakal

@Aksakal私はそれに意見を述べる資格がありません。
デイブ・ハリス

、会社が部品を作成し、レベルの複合仮説検定を使用して、間違いがないかテストしたとしますは間違いなく合格し、は失敗します。NASAに妥当な保証を与えることができます。誤ってテストに合格する可能性がある(誤ってエラーなしと見なされる)製品の最大量はです。アイテムを販売したことを知っていれば、販売された部品が仮説に従っていない最大確率を計算できます。α H 0γ > Γ X 、Y nはnαH0:γ>ΓxyX γ ΓnαxγΓ
Sextus Empiricus

4

信頼区間を厳密に定義することにより、それらが完全に無意味になる可能性あることに注意してください。つまり、関心のあるパラメーターについての情報ではありません。ただし、実際には、それらは一般的に非常に意味があります。

意味のない信頼区間の例として、時間の95%が生成し、時間の5%が[、 ]を生成するプロシージャがあるとします。ここで、である任意ように確率変数の組。そして、これはキャプチャの手順で任意の確率の時間の少なくとも95%がそう、技術的に任意の確率のための有効な信頼区間です。しかし、この手順で生成される間隔が特定のに対してであると言った場合、について実際に何も学習していないことに気付くはずです。[0,1]UminUmaxUmin,Umax UはmはiがN < U M A X [ 0.01 0.011 ] P PをUmin<Umax[0.01,0.011]pp

一方、ほとんどの信頼区間はより有用な方法で構築されます。たとえば、Wald Intervalプロシージャを使用して作成されたと言った場合、

p^ ˙ N(p,se)

ここで、は標準エラーです。これは、方法については非常に意味のある文ですに関し。これを信頼区間に変換することは、正規分布にあまり詳しくない人にこの結果を単純化する試みにすぎません。それは、正規分布について知らない人のためのツールにすぎないと言っているだけではありません。たとえば、パーセンタイルブートストラップは、この誤差の分布が非ガウス分布である場合に、推定器と真のパラメーターの間の誤差を要約するためのツールです。seP Pp^p


2

信頼区間は便利なだけでなく、物理学などの一部の分野で不可欠です。残念ながら、CIに関するノイズのほとんどは、通常は社会的な「科学」やその他の科学に似た分野の文脈で、フリークエンティストとの偽の議論に巻き込まれたベイジアンからのものです。

電気料金など、物理学の量を測定するとします。私は常に値の不確かさの尺度を提供します。これは通常、標準偏差です。物理学のエラーはガウスであることが多いため、これは直接CIに変換されます。ただし、エラーがガウスではない場合、少し複雑になり、一部の積分を評価する必要があります。通常、難解なことはありません。

これが素粒子物理学のCIとその定義に関する簡単なプレゼンテーションです。

そのような間隔が多数の反復実験でパラメーターの真の値を含む時間の割合についての量的記述

物理学では、「繰り返し実験」は文字通りの意味を持つことが多いことに注意してください。紙で実際に実験を繰り返すことができ、実際にその割合を観察することが想定されています。したがって、CIはあなたにとって文字通りの意味を持ち、測定の不確実性に関する情報を表現するための手段にすぎません。それは思考実験ではなく、主観的な意見ではなく、可能性についてのあなたや私の感情ではありません。実験から考案できたものであり、実験を再現するときに観察できるはずです。


1

このスレッドはすぐにフリークエント対ベイズ論争に発展しましたが、それは簡単には解決できません。どちらのアプローチでも数学はしっかりしているので、常に哲学的な好みに帰着します。イベントの相対頻度の限界としての確率の頻繁な解釈は、多数の強い法則によって正当化されます。確率の優先解釈に関係なく、イベントの相対頻度は確率1の確率に収束します。

頻度主義の信頼区間は、ベイジアンの信頼できる区間よりも実際に解釈するのが難しいです。未知の量を確率変数として扱うことにより、ベイジアンは、ある確率でその量が1つの区間に含まれていると断言できます。頻度論者は、いくつかの量を確率変数として扱うことを拒否し、定数のみを含む方程式は真または偽にしかなりません。したがって、未知の定数を推定するとき、頻度論者は確率を含むためにランダムな間隔でそれらを制限しなければなりません。ある確率で確率変数を含む1つの区間ではなく、頻度主義の方法は、さまざまな可能な区間を生成します。そのいくつかには未知の定数が含まれています。カバレッジの確率がかなり高い場合は、特定の間隔に未知の定数が含まれていると断言することは合理的な飛躍です(注、「

ベイジアンは、未知数を確率変数として扱う際にフリークエント主義者が踏みにじるのと同じくらい、そのような信念の飛躍を踏みにじるでしょう。頻度の高いネイマン工法は、実際にそのような信仰の飛躍に恥ずかしい問題を露呈しました。それを積極的に妨げずに(1つのアプローチについては、Feldman and Cousins、1997を参照)、まれな結果が分布パラメーターのEMPTY信頼区間を生成する可能性があります。そのような信仰の飛躍は非常に不合理です!私はいくつかのベイジアンがその例を頻繁に使用する方法を模倣するのを見てきましたが、頻繁に使用する人は通常、「まあ、大抵の場合、正しい間隔が得られ、誤った仮定をすることなく」と応答します。ベイジアン/頻出主義の行き詰まりは、彼らの方法を適用するほとんどの人にとって重要ではないことを指摘しておきます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.