順序付けされていないカテゴリ変数との相関


123

多くの観測と多くの変数を含むデータフレームがあります。それらの一部はカテゴリカル(順不同)であり、その他は数値です。

これらの変数間の関連を探しています。私は数値変数の相関(スピアマンの相関)を計算できましたが、

  • 順序付けされていないカテゴリ変数間の相関を測定する方法がわかりません。
  • 順序付けられていないカテゴリ変数と数値変数の相関を測定する方法がわかりません。

誰もこれがどのように行われるか知っていますか?ある場合、これらのメソッドを実装するR関数はありますか?


回答:


113

それはあなたが望む相関の感覚に依存します。プロトタイプのピアソンの積率相関を実行すると、関連の強さの尺度が得られ、その関連の有意性のテストが得られます。ただし、より一般的には、有意性検定効果サイズの尺度は異なります。

有意性テスト:

効果の大きさ(関連の強さ):


5
連続的な場合と名目上の場合の非常に詳細な説明は、名目上の(IV)​​変数と連続的な(DV)変数の間の相関関係にあります
グン

3
バイナリとインターバルの場合には、ポイント-シリアルの相関があります。
-Glen_b

大きなサンプルのカイ2乗検定のより良い代替手段は何でしょうか?
ウォルディルレオンシオ

2
@WaldirLeoncio、はい。ただし、nullがtrueの場合、はのみです。それが動作するはずの方法です。効果の大きさとヌルの検定を知りたい場合は、カイ2乗検定とともにCramerのVを計算できます。< .05 5 p<.055%
GUNG

1
@gungが指摘したように、名義(IV)変数連続(DV)変数の相関は、混合変数の相関を行う方法の優れたリンクです。Hmisc::rcorrこれを美しく行い、次のように(混合変数データフレームについて)チェックできます。as.data.frame(rcorr(as.matrix(data_frame),type = "pearson")$P) as.data.frame(rcorr(as.matrix(data_frame),type = "pearson")$r)
KarthikS

15

次のチートシートがリンクされているのを見たことがあります。

https://stats.idre.ucla.edu/other/mult-pkg/whatstat/

役に立つかもしれません。特定のRライブラリへのリンクもあります。


3
このチートシートの問題は、カテゴリ変数/順序変数/間隔変数のみに関することです。私が探しているのは、数値とカテゴリーの両方の独立変数を使用できる方法です。
クレメントF

6

カテゴリ変数の相関行列が必要な場合は、次のラッパー関数を使用できます(「vcd」パッケージが必要)。

catcorrm <- function(vars, dat) sapply(vars, function(y) sapply(vars, function(x) assocstats(table(dat[,x], dat[,y]))$cramer))

どこ:

vars 相関させたいカテゴリ変数の文字列ベクトル

dat 変数を含むdata.frameです

結果は、CramerのVの行列です。


6

XKtiKi=1,,pXtiR2

このような分析は、多重コレスポンデンス分析の一般化とみなすことができ、正準相関分析、同質性分析など、多くの名前で知られています。Rの実装はhomalsパッケージにあります(CRANで)。この名前のいくつかをグーグルで検索すると、豊富な情報が得られます。完全な本があります。AlbertGifi、「Nonlinear Multivariate Analysis」。幸運を!


1
1

このコメントを考慮して編集します。
kjetil bハルヴォルセン16

2

同様の問題があり、提案されたようにカイ2乗検定を試しましたが、NULL仮説に対するP値の評価で非常に混乱しました。

カテゴリ変数をどのように解釈したかを説明します。あなたの場合、それがどの程度関連しているかわかりません。応答変数Yと2つの予測変数X1とX2がありました。X2は2つのレベルを持つカテゴリ変数で、1と2を表します。線形モデルを近似しようとしました

ols = lm(Y ~ X1 + X2, data=mydata)

しかし、X2のさまざまなレベルが上記の式にどのように適合するかを理解したかったのです。R関数に遭遇しました()

by(mydata,X2,function(x) summary(lm(Y~X1,data=x)))

このコードは、X2の各レベルの線形モデルに適合しようとしています。これにより、すべてのP値とR 2乗、残差標準誤差が得られ、これを理解して解釈できます。

繰り返しますが、これがあなたが望むものかどうかはわかりません。Yを予測する際に、X2の異なる値を比較しました。


1

2つのカテゴリ変数間のリンク強度を測定するには、chisquare統計でクロスタブを使用することをお勧めします

数値変数とカテゴリ変数間のリンク強度を測定するには、平均比較を使用して、あるカテゴリから別のカテゴリに大幅に変化するかどうかを確認できます


2
サイト@DaSilvaLionelへようこそ。2つのカテゴリ変数を使用したカイ2乗検定の使用がすでに上で提案されていることに気付くかもしれません。
グン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.