カイ二乗検定と等比率検定の関係は何ですか?


52

相互に排他的な4つの特性を持つ3つの母集団があるとします。各母集団からランダムサンプルを取得し、測定する特性のクロス集計表または頻度表を作成します。私はそれを言って正しいですか:

  1. 母集団と特性の間に関係があるかどうかをテストしたい場合(たとえば、ある母集団が特性のいずれかの頻度が高いかどうか)、カイ2乗検定を実行して、結果が有意であるかどうかを確認します。

  2. カイ2乗検定が重要な場合、母集団と特性の間に何らかの関係があることのみが示されますが、それらの関係は示されません。

  3. さらに、すべての特性を母集団に関連付ける必要はありません。たとえば、異なる母集団の特性AとBの分布が有意に異なるが、CとDの分布が異なる場合、カイ2乗検定は再び有意である可能性があります。

  4. 特定の特性が母集団の影響を受けているかどうかを測定したい場合は、その特性だけで等しい比率のテストを実行できます(これはz検定と呼ばれprop.test()ていますR)。

言い換えるとprop.test()、カイ二乗検定で有意な関係があると言われたときに、2つのカテゴリセット間の関係の性質をより正確に判断するためにを使用するのが適切でしょうか?


回答:


23

非常に短い答え:

カイ2乗検定(chisq.test()R)は、分割表の各カテゴリで観測された頻度を、予想される頻度(限界頻度の積として計算)と比較します。観測されたカウントと期待されたカウントの偏差が大きすぎて偶然に起因していないかどうかを判断するために使用されます。独立性からの逸脱は、残差を調べることで簡単に確認できます(?mosaicplotまたはまたはを試してください?assocplotが、vcdパッケージも確認してください)。fisher.test()正確なテストに使用します(超幾何分布に依存)。

prop.test()R の関数を使用すると、比率がグループ間で同等であるか、理論的な確率と変わらないかをテストできます。テスト統計が次のように見えるため、テストと呼ばれます。z

z=(f1f2)p^(1p^)(1n1+1n2)

ここで、、およびインデックスはテーブルの1行目と2行目を参照します。双方向の分割表 、これは通常のテストに匹敵する結果をもたらすはずです:12H0p^=(p1+p2)/(n1+n2)(1,2)χ 2H0:p1=p2χ2

> tab <- matrix(c(100, 80, 20, 10), ncol = 2)
> chisq.test(tab)

    Pearson's Chi-squared test with Yates' continuity correction

data:  tab 
X-squared = 0.8823, df = 1, p-value = 0.3476

> prop.test(tab)

    2-sample test for equality of proportions with continuity correction

data:  tab 
X-squared = 0.8823, df = 1, p-value = 0.3476
alternative hypothesis: two.sided 
95 percent confidence interval:
 -0.15834617  0.04723506 
sample estimates:
   prop 1    prop 2 
0.8333333 0.8888889 

Rを使用した離散データの分析については、Laura ThompsonのAgrestiのCategorical Data Analysis(2002)付属するR(およびS-PLUS)マニュアルを強くお勧めします。


2
prop.test()が実行するテストの共通名はありますか?
アッティカス29

2
「z-testと呼ばれます」。
ラッセルピアス14

私@chlビットが混乱している-私は思ったprop.testし、chisq.test上のこの記事では、なぜ同じp値を説明するだけでなく、思われる、カイ二乗を両方使用R-ブロガー彼らは自分のアドホック機能を持っています。
アントニ・パレラダ

@Antoniはい、これはキースが返信で説明したものです。
chl

3
whats and、、、、?n 2 f 1 f 2 p 1 p 2n1n2f1f2p1p2
トムカ

23

2つの比率が等しいかどうかのカイ2乗検定は、検定とまったく同じです。1自由度のカイ2乗分布は、正規偏差の2乗の分布です。基本的に、分割表のサブセットでカイ2乗検定を繰り返すだけです。(これが、@ chlが両方のテストでまったく同じ値を取得する理由です。)pzp

最初にカイ二乗検定をグローバルに実行し、次にサブセットに対してさらにテストを実行するために急降下する問題は、必ずしもアルファを保持しないことです。つまり、誤検知を5%未満に制御しません(またはすべての)を実験全体で使用します。α

古典的なパラダイムでこれを適切に行うには、最初に仮説を特定し(比較する比率)、データを収集し、各テストの有意性の合計しきい値が合計されるように仮説をテストする必要があると思います。何らかの相関があることをアプリオリに証明できない限り。α

比率の平等に関する最も強力なテストは、優越性に対するバーナードのテストと呼ばれます。


@gung私は少しは混乱している-私は思ったprop.testし、chisq.test上のこの記事では、なぜ同じp値を説明するだけでなく、思われる、カイ二乗を両方使用R-ブロガー彼らは自分のアドホック機能を持っています。
アントニ・パレラダ

@AntoniParellada、何があなたを混乱させているのかわかりません。この回答は、それらが「まったく同じ」であると述べており、「両方がカイ二乗を使用する」場合に意味があります。
GUNG -復活モニカ

元の回答の@gungは、prop.test()...とは対照的に、...はz検定と呼ばれると述べていますchisq.test()。後にキースは、「2つの比率が等しいかどうかのカイ2乗検定は、z検定とまったく同じです。これが、@ chlが両方の検定でまったく同じp値を取得する理由です。」
Antoni Parellada

1
@AntoniParelladaという単なる不明確な言い回しのようです。概念的には、2つのテストは区別されます。これは、他の回答で説明したとおりです。しかし、数学的には、それらは同等です。実際、R関数はprop.test()実際にはchisq.test()出力を異なる方法で呼び出して印刷するだけです。
GUNG -復活モニカ

@gung私はR-Bloggerに似た機能に取り組んでいたので、初心者レベルの人々に投稿し、実際にあなたが書いたいくつかの重要な概念について引用し、chiの両方の数学を実行しました正方形とz検定、そしてRコードを与えます。
アントニ・パレラダ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.