2つのカテゴリ変数とカテゴリ変数と連続変数の間の相関関係を取得する方法は?


63

私は回帰モデルを構築していますが、以下を計算して相関を確認する必要があります

  1. 2つのマルチレベルカテゴリ変数間の相関
  2. マルチレベルのカテゴリ変数と連続変数の相関
  3. マルチレベルのカテゴリ変数のVIF(分散インフレーション係数)

ピアソンは2つの連続変数に対してのみ機能するため、上記のシナリオにピアソン相関係数を使用するのは間違っていると思います。

以下の質問に答えてください

  1. 上記の場合に最適な相関係数はどれですか?
  2. VIF計算は連続データに対してのみ機能するので、代替手段は何ですか?
  3. 提案する相関係数を使用する前に確認する必要がある仮定は何ですか?
  4. SAS&Rでそれらを実装する方法は?

4
CV.SEは、このようなより理論的な統計についての質問に適した場所だと思います。そうでない場合、あなたの質問に対する答えは文脈に依存すると言うでしょう。時にはそれがダミー変数に複数のレベルを平らにすることは理にかなって、他の回は多項分布などに応じてデータをモデル化するために価値がある
ffriend

カテゴリ変数は順序付けられていますか?はいの場合、これは検索する相関のタイプに影響を与える可能性があります。
nassimhddd 14

私の研究でも同じ問題に直面しなければなりません。しかし、私はこの問題を解決するための正しい方法を見つけることができませんでした。あなたが見つけた参考文献を教えてくれるほど親切にしてください。
user89797

p値は相関係数rと同じですか?
アヨエマ

上記の解法は、カテゴリカルと連続のANOVAで解決できます。小さなひしゃく。p値が小さいほど、2つの変数間の「適合」度が高くなります。その逆ではありません。
myudelson

回答:


73

2つのカテゴリー変数

2つのカテゴリ変数が独立しているかどうかのチェックは、独立のカイ二乗検定を使用して実行できます。

これは典型的なカイ二乗検定です。2つの変数が独立していると仮定した場合、これらの変数の分割表の値は均一に分布する必要があります。そして、実際の値が均一からどれだけ離れているかを確認します。

このテストから得られる相関の尺度であるCrammerのVも存在します。

2つの変数があるとします

  • 性別:男性と女性
  • 市:ブロワとツアー

次のデータを確認しました。

観測値

性別と都市は独立していますか?カイ二乗検定を実行しましょう。帰無仮説:それらは独立しています。対立仮説は、それらが何らかの方法で相関しているということです。

Null仮説では、一様分布を仮定します。期待値は次のとおりです

期待値

したがって、カイ2乗検定を実行すると、ここで得られるp値は、これら2つの変数間の相関の尺度として見ることができます。

CrammerのVを計算するには、まずサンプルのサイズである正規化係数chi-squared-maxをまず見つけ、それでカイ2乗を除算し、平方根を取ります。

クランマーv

R

tbl = matrix(data=c(55, 45, 20, 30), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))

chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)

ここで、p値は0.08-非常に小さいですが、独立性の仮説を拒否するにはまだ十分ではありません。したがって、ここでの「相関」は0.08と言えます。

Vも計算します。

sqrt(chi2$statistic / sum(tbl))

0.14を取得します(vが小さいほど、相関が低くなります)

別のデータセットを検討する

    Gender
City  M  F
   B 51 49
   T 24 26

このため、次のようになります

tbl = matrix(data=c(51, 49, 24, 26), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))

chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)

sqrt(chi2$statistic / sum(tbl))

p値は0.72で1に非常に近く、vは0.03-0に非常に近い

カテゴリー変数と数値変数

このタイプの場合、通常、一元配置分散分析検定を実行します。グループ内分散とグループ内分散を計算してから比較します。

ドーナツから吸収された脂肪と、ドーナツの製造に使用される脂肪の種類との関係を調べたい(例をここから引用

ドーナツ

変数間に依存関係はありますか?そのために、ANOVAテストを実行し、p値が0.007だけであることを確認します-これらの変数間に相関関係はありません。

R

t1 = c(164, 172, 168, 177, 156, 195)
t2 = c(178, 191, 197, 182, 185, 177)
t3 = c(175, 193, 178, 171, 163, 176)
t4 = c(155, 166, 149, 164, 170, 168)

val = c(t1, t2, t3, t4)
fac = gl(n=4, k=6, labels=c('type1', 'type2', 'type3', 'type4'))

aov1 = aov(val ~ fac)
summary(aov1)

出力は

            Df Sum Sq Mean Sq F value  Pr(>F)   
fac          3   1636   545.5   5.406 0.00688 **
Residuals   20   2018   100.9                   
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

したがって、ここでも相関の尺度としてp値を使用できます。

参照資料


1
詳細についてはAlexeyに感謝します。より多くの研究に基づいて、ポリシリアルとポリクロロの相関について発見しました。これらよりもあなたのアプローチはどうですか?教えてください
GeorgeOfTheRF

1
私はこれらのことを知りません、ごめんなさい。
アレクセイ・グリゴレフ

@Alexeyによる素晴らしい回答。コメントを読んだ後、ポリコリック/ポリシリーズ相関をオンラインで読みます。これらは、2つの観測変数から、2つの潜在変数間の相関を推定するための手法です。私はそれがあなたが求めたものではないと思います、そしてそれはアレクセイの答えに匹敵しません。
-KarthikS

1
最初の例は、カテゴリーとカテゴリーの関係ではなく、カテゴリーと数値の関係です。実際は、数値である男性(それぞれ女性)のに対して都市を調べています。カテゴリカテゴリは次のようになり対、たとえば、都市目の色形状や他の何かが、決してそれは男女の代表の数になります。
-18:

1
@AlexeyGrigorevデータが正常に配信されない場合は、kruskal-wallic代わりにone-way anova?前もって感謝します。
ebrahimi
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.