信頼区間に属さない仮説と同等のp値を使用して仮説を棄却していますか?


29

推定の信頼区間を正式に導出している間、値の計算方法に非常によく似た式になりました。p

したがって、質問:それらは形式的に同等ですか?すなわち仮説拒否され臨界値とと同等臨界値と信頼区間に属さない?H0=0α0α


2
@f coppens:はい、異なる統計で2つのテストが使用される場合、2つの異なる信頼区間になります。しかし、OPは基本的な事実を発見したと思います:信頼区間とp値の両方が同じ統計量の分布から取得されるため、両方を使用して帰無仮説を棄却するかどうかを決定できます。
StijnDeVuyst

1
@StijnDeVuyst:割合のクロッパー/ピアロン間隔と割合のスターン間隔は、同じサイズの二項分布から導出されます(pの信頼区間を見つけるため、pは不明です)。Clopper / PearsonとSterneの違いは、二項密度の非対称性によるものです。Sterne区間は区間の幅を最小化しようとし、Clopper_pearsonは対称性を維持しようとします(ただし、Binomialの歪度のため、これは近似的にしか見つかりません)。

6
一般的には違います。間隔の幅が推定パラメーター値の関数であるのに対し、テストでは間隔の幅が仮定されたパラメーター値の関数である場合を考えます。明らかな例は、二項pの検定です。通常の約を使用してみましょう。簡単にするために(ただし、引数の形式はそれに依存しません)。n = 10、およびn = p = 0.5を検討してください。2つの頭を観察することを想像してください。nullは拒否されません(「2」は約0.5の95%間隔内にあります)が、pのCIは0.5を含みません(CIはnullの下の間隔幅よりも狭いためです。)
Glen_b -Reinstate Monica

4
または、通常の近似値が十分な大きさである必要がある場合は、H0 p = 0.5の場合、1000回のトスで469ヘッドを試してください。この場合も、pの95%CIには0.5が含まれませんが、H0の下の対応する間隔幅は代替(CIの実行元)よりも広いため、5%テストは拒否しません。
Glen_b-モニカーを復活

4
@Glen_b:この新しい質問stats.stackexchange.com/questions/173005は、あなたがここで説明した状況の例を提供しているようです。
アメーバは、モニカを復活させる

回答:


32

はいといいえ。

まず「はい」

観察したことは、検定と信頼区間が同じ統計に基づいている場合、それらの間に等価性があることです値は、パラメーターのnull値がとるαの最小値として解釈できます。1 - α信頼区間に含まれます。pα1α

してみましょうパラメータ空間内の未知のパラメータであるΘ R、およびサンプル聞かせてX = X 1... xはn個X NR n個の確率変数の実現可能X = X 1... X n。簡単にするために、信頼区間を定義IのαXをなどの、ランダム間隔としてカバレッジ確率P θθΘRバツ=バツ1バツnバツnRnバツ=バツ1バツnαバツ (同様に、より一般的な間隔を考慮することができます。この場合、カバレッジ確率は 1 - αに制限されるか、ほぼ等しくなります。推論は類似しています。)

Pθ(θIα(X))=1αfor all α(0,1).
1α

両側検定を考えるポイント帰無仮説代替に対するH 1θ 0θ θ 0。ましょうλ θ 0X試験のp値を示します。いずれかのためにα 0 1 H 0θ 0レベルで拒否されたα場合H0(θ0):θ=θ0H1(θ0):θθ0λ(θ0,x)α01H0θ0α。レベル α拒絶領域はの集合である Xの拒否につながる H 0θ 0 R αθ 0=を{ XR Nλ θ 0Xα } λθ0バツαα バツH0θ0

Rαθ0={バツRnλθ0バツα}

さて、p値と両側検定の家族を考えるのために、θ Θ。そのような家族のために、我々は定義することができる逆阻止領域QのαをX= { θ Θ λ θ Xα } λθバツθΘ

Qα(x)={θΘ:λ(θ,x)α}.

任意の固定のためのH 0θ 0拒否された場合のxR αθ 0、発生している場合に限りθ 0Q αX、である、 XR αθ 0θ 0Q αX テストが完全に指定された絶対連続ヌル分布のテスト統計に基づいている場合、θ0H0(θ0)xRα(θ0θ0Qαバツ

バツRαθ0θ0Qαバツ
の下で H 0θ 0。その後、 P θ 0XR αθ 0= P θ 0λ θ 0Xα = α この式は、いずれかのために保持しているので θ 0Θλθ0バツうん01H0θ0
Pθ0バツRαθ0=Pθ0λθ0バツα=α
θ0Θその上式は、ことを意味するので、ランダムなセットのことを、以下のQ αxは常にカバー真のパラメータは、θ 0を確率でα。したがって、せるQ C αxはの相補示すQを
Pθ0(XRα(θ0))=Pθ0(θ0Qα(X)),
Qα(x)θ0αQαC(x)、のためのすべての θ 0Θ我々有する P θ 0θ 0Q C αX= 1 - α 逆阻止領域の相補体であることを意味 1 - αの信頼区間 θQα(x)θ0Θ
Pθ0(θ0QαC(X))=1α,
1αθ

zθバツ¯σ=1H0θバツ¯θR0.050.9=1.520.2810.051/2=Q0.05C1/2=0.1201.120ここに画像の説明を入力してください

(この多くは私の博士論文から引用されています。)

「いいえ」の場合

θバツ

この現象は、ネストされていないこのような間隔に関連する問題に関係しています。つまり、94%の間隔は95%の間隔よりも短くなる可能性があります。詳細については、この最近の私の論文のセクション2.5を参照してください(ベルヌーイに掲載されます)。

そして2番目の「いいえ」

一部の問題では、標準信頼区間は標準検定と同じ統計に基づいていません(Michael Fayがこのペーパーで説明したように)。これらの場合、信頼区間とテストでは同じ結果が得られない場合があります。例えば、θ0=0信頼区間に0が含まれていても、テストによって拒否される場合があります。異なる統計が使用されるため、これは上記の「はい」と矛盾しません。

そして、時々「はい」は良いことではありません

コメントのf coppensによって指摘されているように、間隔とテストの目標が相反することがあります。短い間隔と高出力のテストが必要ですが、最短間隔が常に最大出力のテストに対応するとは限りません。このいくつかの例については、この論文(多変量正規分布)、またはこれ(指数分布)、または私の論文のセクション4を参照してください

ベイジアンは、はいといいえの両方を言うこともできます

数年前、ベイジアン統計にもテスト間隔等価性が存在するかどうかについて質問を投稿しました。簡単な答えは、標準的なベイジアン仮説検定を使用すると、答えは「いいえ」であるということです。ただし、テストの問題を少し修正することで、答えは「はい」になります。(自分の質問に答えようとする私の試みは、最終的に論文になりまし!)


2
いい答え(+1)と(部分的にそれを行う)時には、信頼区間と仮説検定が(潜在的に)矛盾する目標を持っているという事実を指摘するのが良いかもしれません:仮説検定では、「可能な限り強力な」重要な領域を見つけようとします。

@fcoppens:提案をありがとう!これに関するいくつかの行で回答を更新しました。
MånsT

素敵な論文!あなたはスターン間隔にも取り組みましたか?

@fcoppens:はい、私は主に、スターン間隔いくつかの作業を行ってきたこの論文
MånsT

7
@amoeba:実際、彼の「ノー」は私の2番目の「ノー」だと思います。私が知る限り、彼は信頼区間を統計に基づいていますT1=p^p/p^1p^/n 統計上のテスト T2=p^p/p1p/n。分母の違いに注意してください。いずれかの統計を使用してテストと間隔を作成できます。両方に同じ統計を使用する限り、矛盾はありません。
MånsT

2

単一のパラメーターを見るとき、パラメーターの値と信頼区間「不一致」についてのテストは、それらがどのように構成されているかによって異なります。特に、仮説検定はレベルですα-帰無仮説をある割合で棄却する場合 α帰無仮説が真である時間の そのため、たとえば、帰無仮説の下でのみ有効なモデルパラメーターの推定値(分散など)を使用できます。このテストを反転してCIを構築しようとした場合、対立仮説ではカバレッジが正しくない可能性があります。そのため、通常、カバレッジが代替のすぐ下にもあるように、通常は信頼区間を異なる方法で構築します。これにより、(通常は非常に小さい)不一致が発生する可能性があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.