(a)最初に、力学ではなく根底にある考えを説明しましょう。それらは、振り返ってみるとより明白になります。次に、(b)カイ2乗について(そしてそれが適切かどうか-それは適切ではない可能性があります)について説明し、次に(c)Rでそれを行う方法について説明します。
(a)nullの下では、母集団は同じです。2つのコホートを1つの大きなデータセットに入れて、コホートラベルを保持する列を追加するとします。次に、nullの下では、コホートラベルは事実上、ランダムなラベルであり、観測から得られた分布についてこれ以上何も伝えません。
もちろん、代替案では、コホートラベルが重要です。2つのラベルの下の分布が異なるため、コホートラベルを知っていることは、知らないことよりも多くのことを教えてくれます。
(これは、サンプルで計算された統計-代替に敏感な統計-がランダムに行に再割り当てされたコホートラベルを使用した同じ統計の分布と比較される、ある種の置換テスト/ランダム化テストをすぐに提案します。可能な再割り当ては順列検定ですが、それらをサンプリングするだけの場合はランダム化検定です。)
(b)では、カイ二乗を行う方法を教えてください。
nullの下で期待値を計算します。コホートラベルはnullでは重要ではないため、全体的な分布に基づいて各セルの予想数を計算します。
Status
A B ... E ... G ... Total
Cohort 1: 10 15 18 84
Cohort 2: 9 7 25 78
Total: 19 22 ... 43 ... 162
(私、j )×
したがって、通常の独立性のカイ2乗検定を取得するだけです。
しかしながら!
ステータスラベルが順序付けられたカテゴリを形成している場合、このカイ2乗検定は多くの情報を破棄します-興味深い代替(低いまたは高いカテゴリへのわずかなシフトなど)に対して低い力になります。そのような状況では、より適切なものを実行する必要があります。つまり、その順序を考慮に入れます。多くのオプションがあります。
-
(c)次に、Rでそれを行う方法について説明します。これは、データが現在Rでどのように設定されているかに依存します。データのサブセットのような再現可能な例があると、本当に役立ちます。
2つの列があるデータフレームにあると想定します。1つはステータス(因子)で、もう1つはコホート(第2因子)です。
そのようです:
status cohort
1 B Cohort1
2 B Cohort1
3 D Cohort1
4 B Cohort1
5 C Cohort1
6 D Cohort1
.
.
.
25 G Cohort2
26 E Cohort2
27 E Cohort2
28 D Cohort2
29 C Cohort2
30 G Cohort2
次に、それがデータフレームと呼ばれるstatusresults
場合は、前に行ったようなテーブルを取得します。
> with(statusresults,table(cohort,status))
status
cohort A B C D E F G
Cohort1 2 6 7 3 0 0 0
Cohort2 0 0 2 2 4 1 3
カイ二乗検定の場合は、次のようにします。
> with(statusresults, chisq.test(status, cohort))
Pearson's Chi-squared test
data: status and cohort
X-squared = 18.5185, df = 6, p-value = 0.005059
Warning message:
In chisq.test(status, cohort) : Chi-squared approximation may be incorrect
(警告は、非常に小さなサンプルを使用した場合、一部のセルで予想されるカウントが低いためです)
ステータスのカテゴリを注文した場合は、そうする必要があります。これにより、単純なカイ二乗以外の分析の可能性について説明できます。