2つのカテゴリー変数
2つのカテゴリ変数が独立しているかどうかのチェックは、独立のカイ二乗検定を使用して実行できます。
これは典型的なカイ二乗検定です。2つの変数が独立していると仮定した場合、これらの変数の分割表の値は均一に分布する必要があります。そして、実際の値が均一からどれだけ離れているかを確認します。
このテストから得られる相関の尺度であるCrammerのVも存在します。
例
2つの変数があるとします
次のデータを確認しました。
性別と都市は独立していますか?カイ二乗検定を実行しましょう。帰無仮説:それらは独立しています。対立仮説は、それらが何らかの方法で相関しているということです。
Null仮説では、一様分布を仮定します。期待値は次のとおりです
したがって、カイ2乗検定を実行すると、ここで得られるp値は、これら2つの変数間の相関の尺度として見ることができます。
CrammerのVを計算するには、まずサンプルのサイズである正規化係数chi-squared-maxをまず見つけ、それでカイ2乗を除算し、平方根を取ります。
R
tbl = matrix(data=c(55, 45, 20, 30), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))
chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)
ここで、p値は0.08-非常に小さいですが、独立性の仮説を拒否するにはまだ十分ではありません。したがって、ここでの「相関」は0.08と言えます。
Vも計算します。
sqrt(chi2$statistic / sum(tbl))
0.14を取得します(vが小さいほど、相関が低くなります)
別のデータセットを検討する
Gender
City M F
B 51 49
T 24 26
このため、次のようになります
tbl = matrix(data=c(51, 49, 24, 26), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))
chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)
sqrt(chi2$statistic / sum(tbl))
p値は0.72で1に非常に近く、vは0.03-0に非常に近い
カテゴリー変数と数値変数
このタイプの場合、通常、一元配置分散分析検定を実行します。グループ内分散とグループ内分散を計算してから比較します。
例
ドーナツから吸収された脂肪と、ドーナツの製造に使用される脂肪の種類との関係を調べたい(例をここから引用)
変数間に依存関係はありますか?そのために、ANOVAテストを実行し、p値が0.007だけであることを確認します-これらの変数間に相関関係はありません。
R
t1 = c(164, 172, 168, 177, 156, 195)
t2 = c(178, 191, 197, 182, 185, 177)
t3 = c(175, 193, 178, 171, 163, 176)
t4 = c(155, 166, 149, 164, 170, 168)
val = c(t1, t2, t3, t4)
fac = gl(n=4, k=6, labels=c('type1', 'type2', 'type3', 'type4'))
aov1 = aov(val ~ fac)
summary(aov1)
出力は
Df Sum Sq Mean Sq F value Pr(>F)
fac 3 1636 545.5 5.406 0.00688 **
Residuals 20 2018 100.9
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
したがって、ここでも相関の尺度としてp値を使用できます。
参照資料