連続変数とカテゴリー変数の間の「相関」をどのように調べるのですか？

19

このような2種類の変数間の関係を調べるための意味のある「相関」尺度とは何ですか？

Rでは、それを行う方法は？

r correlation categorical-data association-measure

— ルナ
ソース

1

「どのように勉強しますか」と尋ねる前に、「どのように定義しますか」に対する答えがあるはずです。

— 好奇心が

2

@Tomas、あなたがそうする場合、関係の推定強度はポイントのラベル付け方法に依存しますが、これはちょっと怖いです:)

— マクロ

@Macro、あなたは正しいです-良い定義を持つための別の堅実な議論！

— 好奇心が

@Macroあなたの主張を誤解していない限り、違います。相関は線形変換の影響を受けません。したがって、有限のaおよびbに対してcor（X、Y）= cor（a + bX、Y）です。0/1を1/11として再ラベル付けしても、そのvarまたはその線形変換を使用した相関には何も影響しません。

— アレクシス

@Curiousは、上記のマクロに対する私のコメントを参照してください。そして注意：（1）X <- sample(c(0,1),replace=TRUE,size=100)（2）Y <- X + rnorm(100,0.5)（3）corr(Y,X)（4）X <- 1 + 10*X（5）corr(X,Y)：両方の相関について同じ結果！

— アレクシス

19

しばらくの間、連続/離散の問題を無視しましょう。基本的に相関は変数間の線形関係の強さを測定するものであり、関係の強さを測定する別の方法を求めているようです。あなたは情報理論からのいくつかのアイデアに興味があるかもしれません。特に相互情報を見たいと思うかもしれません。相互情報は、基本的に、1つの変数の状態が他の変数についてどれだけ知っているかを定量化する方法を提供します。私は実際、この定義は相関について考えるとき、ほとんどの人が意味するものに近いと思います。

2つの離散変数XおよびYの場合、計算は次のとおりです

I (X; Y) = \sum_{y \in Y} \sum_{x \in X} p (x, y) \log (\frac{p (x, y)}{p (x) p (y)})

$I(X;Y) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} \right) }$

2つの連続変数について、合計を取るのではなく統合します：

I (X; Y) = \int_{Y} \int_{バツ} p （ バツ 、 y ） ログ （ \frac{p （ バツ 、 y ）}{p （ バツ ） p （ y ）} ） d バツ d y

$I(X;Y) = \int_Y \int_X p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} \right) } \; dx \,dy$

特定のユースケースは、1つのディスクリートと1つの連続的なケースです。合計を積分したり、積分を合計したりするのではなく、変数の1つを他の型に変換する方が簡単だと思います。これを行う典型的な方法は、連続変数を離散ビンに離散化することです。

データを離散化する方法はいくつかあります（たとえば、等間隔）。Rを使用する場合は、エントロピーパッケージがMI計算に役立つはずです。

— マイケル・マッゴーワン
ソース

1

ありがとう。しかし、corr = 1に対応するMIの高さとcorr = 0に対応するMIの低さは？

— ルナ

MIの最小値は0で、変数が独立している場合にのみMI = 0です。ただし、MIには一定の上限がありません（上限は変数のエントロピーに関連しているため）。それが重要な場合は、正規化されたバージョンのいずれかを確認することをお勧めします。

— マイケル

6

カテゴリ変数が順序変数であり、連続変数をいくつかの周波数間隔にビン化すると、ガンマを使用できます。順序形式にされたペアのデータには、ケンダルのタウ、スチュアートのタウ、およびサマーズDも使用できます。これらはすべて、Proc Freqを使用してSASで使用できます。Rルーチンを使用してどのように計算されるかわかりません。：ここでは詳細な情報を提供するプレゼンテーションへのリンクです http://faculty.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5,Measures協会の公称と順序変数については、

— マイケル・R・チャーニック
ソース

1

カテゴリ変数は、事実上、単なるインジケータ変数のセットです。このような変数はカテゴリの再ラベル付けに対して不変であるという測定理論の基本的な考え方であるため、別の変数間の関係の尺度（たとえば、「相関」）でカテゴリの数値ラベルを使用しても意味がありません。このため、連続変数とカテゴリー変数の関係の測定は、後者から派生したインジケーター変数に完全に基づいている必要があります。

2つの変数間の「相関」の測定が必要な場合、連続確率変数とカテゴリ変数から派生したインジケーター確率変数間の相関を調べることは理にかなっています。まかせ私たちは持っています： $X$ $I$ $\phi \equiv \mathbb{P}(I=1)$

C o v (I, X) = E (I X) - E (I) E (X) = ϕ [E (X | I = 1) - E (X)],

$\mathbb{Cov}(I,X) = \mathbb{E}(IX) - \mathbb{E}(I) \mathbb{E}(X) = \phi \left[ \mathbb{E}(X|I=1) - \mathbb{E}(X) \right] ,$

与えるもの：

C o r r (I, X) = \sqrt{\frac{ϕ}{1 - ϕ}} \cdot \frac{E (X | I = 1) - E (X)}{S (X)} .

$\mathbb{Corr}(I,X) = \sqrt{\frac{\phi}{1-\phi}} \cdot \frac{\mathbb{E}(X|I=1) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

連続確率変数の間の相関ように及びインジケータランダム変数指標、確率の非常に単純な関数であるとの期待値で規格化利得にコンディショニングから。この相関では、連続確率変数の離散化は必要ないことに注意してください。 $X$ $I$ $\phi$ $X$ $I=1$

一般的なカテゴリ変数の範囲がこのカテゴリを拡張すると、カテゴリ変数の各結果の相関値のベクトルが得られます。任意の転帰のために我々は、対応するインジケータを定義することができる、我々は持っているが。 $C$ $1, ..., m$ $C=k$ $I_k \equiv \mathbb{I}(C=k)$

C o r r （ 私_{k} 、 バツ ） = \sqrt{\frac{ϕ_{k}}{1 - ϕ_{k}}} \cdot \frac{E （ バツ | C = k ） - E （ バツ ）}{S （ バツ ）} 。

$\mathbb{Corr}(I_k,X) = \sqrt{\frac{\phi_k}{1-\phi_k}} \cdot \frac{\mathbb{E}(X|C=k) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

我々は、次に定義することができる各カテゴリの相関値のベクトルとしてカテゴリー確率変数の。これは、カテゴリーランダム変数の「相関」について話すのが理にかなっている唯一の意味です。 $\mathbb{Corr}(C,X) \equiv (\mathbb{Corr}(I_1,X), ..., \mathbb{Corr}(I_m,X))$

（注：であることを示すのは簡単です。したがって、カテゴリ確率変数の相関ベクトルはこの制約を受けます。これは、カテゴリの確率ベクトルの知識が与えられたことを意味しますランダム変数、およびの標準偏差により、その要素のからベクトルを導き出すことができます。） $\sum_k \mathbb{Cov}(I_k,X) = 0$ $X$ $m-1$

上記の説明は真の相関値に関するものですが、明らかにこれらは特定の分析で推定する必要があります。サンプルデータからインジケーターの相関関係を推定することは簡単であり、各部品の適切な推定値を置き換えることで実行できます。（ご希望の場合は、手の込んだ推定方法を使用することができます。）サンプルデータを考えると相関方程式の部分を次のように推定できます。 $(x_1, c_1), ..., (x_n, c_n)$

{\hat{ϕ}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} I (c_{i} = k) .

$\hat{\phi}_k \equiv \frac{1}{n} \sum_{i=1}^n \mathbb{I}(c_i=k).$

\hat{E} (X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} .

$\hat{\mathbb{E}}(X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i=1}^n x_i.$

\hat{E} (X | C = k) \equiv {\bar{x}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} I (c_{i} = k) / {\hat{ϕ}}_{k} .

$\hat{\mathbb{E}}(X|C=k) \equiv \bar{x}_k \equiv \frac{1}{n} \sum_{i=1}^n x_i \mathbb{I}(c_i=k) \Bigg/ \hat{\phi}_k .$

\hat{S} (X) \equiv s_{X} \equiv \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} .

$\hat{\mathbb{S}}(X) \equiv s_X \equiv \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}.$

$X$

— モニカを復活させる
ソース

0

Rパッケージmpmiには、連続変数と離散変数の混合変数の場合の相互情報を計算する機能があります。ここで有用な（ポイント）双シリアル相関係数などの他の統計オプションがありますが、線形および単調以外の関連を検出できるため、相互情報を計算することは有益であり、強く推奨されます。

— シィソイ
ソース

0

$X$ $Y$ $X$ $Y$

$Y$
$Y$

ただし、ポイントとポリシリアルの相関は、ポイントとバイシリアルの一般化にすぎないことに注意してください。

より広い視野で見るには、Olsson、Drasgow＆Dorans（1982）[1]の表をご覧ください。

[1]：出典：Olsson、U.、Drasgow、F.、＆Dorans、NJ（1982）。ポリシリアル相関係数。サイコメトリカ、47（3）、337–347

— ウォルディル・レオンシオ
ソース