このような2種類の変数間の関係を調べるための意味のある「相関」尺度とは何ですか?
Rでは、それを行う方法は?
X <- sample(c(0,1),replace=TRUE,size=100)
(2)Y <- X + rnorm(100,0.5)
(3)corr(Y,X)
(4)X <- 1 + 10*X
(5)corr(X,Y)
:両方の相関について同じ結果!
このような2種類の変数間の関係を調べるための意味のある「相関」尺度とは何ですか?
Rでは、それを行う方法は?
X <- sample(c(0,1),replace=TRUE,size=100)
(2)Y <- X + rnorm(100,0.5)
(3)corr(Y,X)
(4)X <- 1 + 10*X
(5)corr(X,Y)
:両方の相関について同じ結果!
回答:
しばらくの間、連続/離散の問題を無視しましょう。基本的に相関は変数間の線形関係の強さを測定するものであり、関係の強さを測定する別の方法を求めているようです。あなたは情報理論からのいくつかのアイデアに興味があるかもしれません。特に相互情報を見たいと思うかもしれません。相互情報は、基本的に、1つの変数の状態が他の変数についてどれだけ知っているかを定量化する方法を提供します。私は実際、この定義は相関について考えるとき、ほとんどの人が意味するものに近いと思います。
2つの離散変数XおよびYの場合、計算は次のとおりです
2つの連続変数について、合計を取るのではなく統合します:
特定のユースケースは、1つのディスクリートと1つの連続的なケースです。合計を積分したり、積分を合計したりするのではなく、変数の1つを他の型に変換する方が簡単だと思います。これを行う典型的な方法は、連続変数を離散ビンに離散化することです。
データを離散化する方法はいくつかあります(たとえば、等間隔)。Rを使用する場合は、エントロピーパッケージがMI計算に役立つはずです。
カテゴリ変数が順序変数であり、連続変数をいくつかの周波数間隔にビン化すると、ガンマを使用できます。順序形式にされたペアのデータには、ケンダルのタウ、スチュアートのタウ、およびサマーズDも使用できます。これらはすべて、Proc Freqを使用してSASで使用できます。Rルーチンを使用してどのように計算されるかわかりません。:ここでは詳細な情報を提供するプレゼンテーションへのリンクです http://faculty.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5,Measures協会の公称と順序変数については、
カテゴリ変数は、事実上、単なるインジケータ変数のセットです。このような変数はカテゴリの再ラベル付けに対して不変であるという測定理論の基本的な考え方であるため、別の変数間の関係の尺度(たとえば、「相関」)でカテゴリの数値ラベルを使用しても意味がありません。このため、連続変数とカテゴリー変数の関係の測定は、後者から派生したインジケーター変数に完全に基づいている必要があります。
2つの変数間の「相関」の測定が必要な場合、連続確率変数とカテゴリ変数から派生したインジケーター確率変数Iの間の相関を調べることは理にかなっています。まかせφを≡ P(私は= 1 )私たちは持っています:
与えるもの:
連続確率変数の間の相関ように及びインジケータランダム変数Iは指標、確率の非常に単純な関数であるφとの期待値で規格化利得XにコンディショニングからIは、= 1。この相関では、連続確率変数の離散化は必要ないことに注意してください。
一般的なカテゴリ変数の範囲が1 、。。。、mこのカテゴリを拡張すると、カテゴリ変数の各結果の相関値のベクトルが得られます。任意の転帰のためにC = kの我々は、対応するインジケータを定義することができるIのK ≡ I(C = K )、我々は持っているが。
我々は、次に定義することができる各カテゴリの相関値のベクトルとしてカテゴリー確率変数の。これは、カテゴリーランダム変数の「相関」について話すのが理にかなっている唯一の意味です。
(注:であることを示すのは簡単です。したがって、カテゴリ確率変数の相関ベクトルはこの制約を受けます。これは、カテゴリの確率ベクトルの知識が与えられたことを意味しますランダム変数、およびXの標準偏差により、その要素のm − 1からベクトルを導き出すことができます。)
上記の説明は真の相関値に関するものですが、明らかにこれらは特定の分析で推定する必要があります。サンプルデータからインジケーターの相関関係を推定することは簡単であり、各部品の適切な推定値を置き換えることで実行できます。(ご希望の場合は、手の込んだ推定方法を使用することができます。)サンプルデータを考えると相関方程式の部分を次のように推定できます。
ただし、ポイントとポリシリアルの相関は、ポイントとバイシリアルの一般化にすぎないことに注意してください。
より広い視野で見るには、Olsson、Drasgow&Dorans(1982)[1]の表をご覧ください。
[1]:出典:Olsson、U.、Drasgow、F.、&Dorans、NJ(1982)。ポリシリアル相関係数。サイコメトリカ、47(3)、337–347