信頼区間とt検定の検定統計仮説の関係


31

信頼区間と検定統計仮説が強く関連していることはよく知られています。私の質問は、数値変数に基づいた2つのグループの平均の比較に焦点を当てています。このような仮説はt検定を使用してテストされると仮定しましょう。一方、両方のグループの平均の信頼区間を計算できます。信頼区間の重複と平均が等しいという帰無仮説の棄却との間に関係はありますか?(異なることを意味する代替案を支持して-両側検定)たとえば、信頼区間が重ならない場合、検定は帰無仮説を棄却できます。

回答:


31

はい、信頼できる範囲の比較と、幅広い実用的な設定の仮説検定の間には、いくつかの簡単な関係があります。 ただし、CIの手順とt検定がデータに適していることを確認することに加えて、サンプルサイズに大きな違いがなく、2つのセットの標準偏差が類似していることを確認する必要があります。また、2つの信頼区間の比較から非常に正確なp値を導き出そうとするべきではありませんが、効果的な近似を作成して喜んでいるはずです。

(@Johnと@Brettによって)既に指定された2つの応答を調整しようとする場合、数学的に明示的にすることが役立ちます。この質問の設定に適した対称両側信頼区間の式は次のとおりです。

CI=m±tα(n)sn

ここでmサンプル平均でn、独立した観察sサンプル標準偏差であり、2α所望の試験サイズ(最大偽陽性率)とされているtα(n)上部である1αパーセンタイルスチューデントt分布のn1自由度。(この従来の表記法からのわずかな逸脱により、n vs n1区別に煩わされる必要がなくなるため、説明が簡単になります。とにかく重要ではありません。)

添字用いて1及び2と、比較のためにデータの2つの独立したセットを区別するために1二つの手段の大きい方に対応し、信頼区間の-overlapは不等式(下側信頼限界1)で表される>(上側信頼限界2 ); つまり

m1tα(n1)s1n1>m2+tα(n2)s2n2.

これは、対応する仮説検定のt統計のように(2つの平均を比較するために)単純な代数操作で作成することができます。

m1m2s12/n1+s22/n2>s1n2tα(n1)+s2n1tα(n2)n1s22+n2s12.

左側は、仮説検定で使用される統計です。これは通常のあるスチューデントt分布のパーセンタイルと比較されるn1+n2であり、全自由度tα(n1+n2)。右側は、元のt分布パーセンタイルのバイアスされた加重平均です。

これまでの分析は、@ Brettによる回答を正当化します。利用可能な単純な関係はないようです。 ただし、さらに詳しく調べてみましょう。直感的には、信頼区間が重ならないことは何かを言うべきだからです!

s1s2si

m1m2s1/n1+1/n2>n2tα(n1)+n1tα(n2)n1+n2.

ss1s2ααα

tα(n1+n2)=n2tα(n1)+n1tα(n2)n1+n2?

ααn1=n2=2n1=n2=5n1=n2=n=n1=n2

プロット1

{n1,n2}n110,n210αα

αα

αeα1.91;

あれは、

αexp(1+1.91log(α)).

この式は、次の一般的な状況で適切に機能します。

  • n1n2αα>.001

  • 10α

  • α>.02

n1=n2=2n1=n2=5n1=n2=α

プロット2

これは、一連の信頼区間を目で確認するのに十分すぎるほどです。

2α2eα1.91

2α

2α 2α

0.05 0.005

0.01 0.0002

0.005 0.00006

2α=.05p<.005n.0037n=2.0056n=

この結果は、@ Johnによる返信を正当化するものです(さらに改善されることを願っています)。したがって、以前の返信は矛盾しているように見えますが、両方とも(独自の方法で)正しいです。


7

いいえ、少なくとも単純なものではありません。

ただし、2つの平均の差のt検定と2つの平均の差の信頼区間との間には正確な対応関係があります。

2つの平均の差の信頼区間にゼロが含まれている場合、その差のt検定では、同じ信頼レベルでnullを棄却できません。同様に、信頼区間に0が含まれていない場合、t検定はヌルを拒否します。

これは、2つの平均それぞれの信頼区間間のオーバーラップとは異なります。


@Johnの回答は、現時点では完全に正確ではありませんが、はい、CIのオーバーラップを関連付けてp値をテストできることを正しく指摘しています。関係は、t検定自体ほど複雑ではありません。これは、最初の行で述べたように、主な結論と矛盾するように見えます。この違いをどのように解決しますか?
whuber

矛盾しているとは思わない。警告を追加できます。ただし、一般的な意味では、間隔の表示(分散、サンプルサイズ)以外のパラメーターに関する追加の仮定や知識がない場合、応答はそのままの状態になります。いいえ、少なくとも単純なものではありません。
ブレット

5

分散が等しいという典型的な仮定の下で、はい、関係があります。バーが1つのバー* sqrt(2)の長さよりも短い範囲で重なっている場合、t検定ではアルファ= 0.05で大きく異なることがわかります。バーの端がかろうじて触れている場合、差は0.01で見つかります。グループの信頼区間が等しくない場合、通常は平均を取り、同じルールを適用します。

あるいは、平均の1つの周囲の信頼区間の幅がwの場合、2つの値の最小有意差はw * sqrt(2)です。これは、独立グループt検定の分母sqrt(2 * MSE / n)、およびCIの因子sqrt(MSE / n)を考えると簡単です。

(95%CIを想定)

ここで、独立した手段の周りの信頼区間から推論を行うことに関する簡単な論文があります。この質問と、他の多くの関連する質問に答えます。

カミング、G。、&フィンチ、S。(2005年3月)。目による推論:信頼区間、およびデータの写真の読み方。アメリカの心理学者60(2)、170-180。


2
また、2つのグループが同じサイズであると仮定する必要があると思います。
whuber

大体、はい...
ジョン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.