変数の1つがカテゴリカルである場合、相関があまり役に立たないのはなぜですか?


14

これはちょっとした内臓検査です。この概念をどのように誤解しているかを確認してください。

私は相関関係の機能的理解を持っていますが、その機能的理解の背後にある原則を本当に自信を持って説明するために、ちょっとした把握を感じています。

私が理解しているように、統計的相関(用語のより一般的な使用法とは対照的に)は、2つの連続変数とそれらが同様の方法で上昇または下降する傾向があるかどうかを理解する方法です。

たとえば、1つの連続変数と1つのカテゴリ変数で相関を実行できない理由は、2つの間の共分散を計算する ことができないためです。なぜなら、定義によりカテゴリ変数は平均を求めることができず、したがって、最初の統計分析のステップ。

そうですか?


2
ここで私は主に人口(サンプルではない)相関と共分散を扱う教えるクラスから講義スライドまで入力されpeople.virginia.edu/~trb5me/3120_slides/5/5.2/5.2.pdf
テイラー

3
単純な理由、「あなたの好きな色は何ですか?」そして、彼らは「赤」、「緑」、「青」、「オレンジ」、「黄色」、...と答え、データセットに1、2、3、...とコード化されているものを次に、そのような仕事の満足度を持つ変数は、値0.21を取得します。どういう意味ですか?意味のある解釈を提供しいただけますか?
ティム

2
密接に関連している(おそらく重複している?)- 名義(IV)変数と連続(DV)変数の相関関係
Silverfish

@Taylor:両方の変数が連続的/数値的であるが、一方が確率的であり、他方が学習時間対GPAでない場合、何を使用しますか?
MSIS

回答:


16

相関は、標準化された、すなわち共分散共分散、との標準偏差で割った及び。それを説明させてください。バツyバツy

大まかに言うと、統計は、モデルをデータに適合させ、モデルがそれらのデータポイントをどの程度正確に評価するか(結果=モデル+エラー)として要約できます。それを行う1つの方法は、モデルからの偏差の合計、または残差(res)を計算することです。

res=バツバツ¯

多くの統計計算は、これに基づいています。相関係数(以下を参照)。

作成されたデータセットの例を次にR示します(残差は赤い線で示され、その値はその横に追加されます):

X <- c(8,9,10,13,15)  
Y <- c(5,4,4,6,8)

ここに画像の説明を入力してください

各データポイントを個別に見て、その値をモデルから減算することにより(たとえば、平均;この場合X=11Y=5.4)、モデルの精度を評価できます。モデルは実際の値を過小/過小評価していると言えます。ただし、モデルからのすべての偏差を合計すると、総誤差はゼロになる傾向があります。正の値(モデルは特定のデータポイントを過小評価します)と負の値(モデルは特定のデータを過大評価します)があるため、値は互いに相殺されますポイント)。この問題を解決するために、デビアンセの合計は二乗され、現在は二乗和()と呼ばれています。SS

SS=バツバツ¯バツバツ¯=バツバツ¯2

平方和は、モデルからの偏差の尺度です(つまり、特定のデータセットに対する平均またはその他の適合線)。モデルからの逸脱を解釈する(および他のモデルと比較する)には、観測の数に依存するため、あまり役に立ちません。観測値が多いほど、平方和が高くなります。これは、平方和をで除算することで対処できます。結果のサンプル分散()は、平均値と観測値の間の「平均誤差」になります。したがって、モデルがデータにどの程度適合するか(つまり表現するか)の尺度になります。n1s2

s2=SSn1=バツバツ¯バツバツ¯n1=バツバツ¯2n1

便宜上、サンプルの標準偏差と呼ばれるサンプルの分散の平方根を取得できます。

s=s2=SSn1=バツバツ¯2n1

現在、共分散は2つの変数が互いに関連しているかどうかを評価します。正の値は、1つの変数が平均から逸脱すると、他の変数が同じ方向に逸脱することを示します。

covバツy=バツバツ¯yy¯n1

標準化することにより、ピアソン相関係数である単位標準偏差ごとの共分散を表します。これにより、異なる単位で測定された変数を相互に比較できます。相関係数は、-1(完全な負の相関)から0(相関なし)および+1(完全な正の相関)の範囲の関係の強さの尺度です。r

r=covバツysバツsy=バツ1バツ¯yy¯n1sバツsy

この場合、ピアソン相関係数はであり、これは強い相関と見なすことができます(ただし、これは研究分野によっても相対的です)。これを確認するには、x軸とy軸に別のプロットを使用します。r=0.87XY

ここに画像の説明を入力してください

簡単に言えば、はい、あなたの気持ちは正しいですが、私の答えがコンテキストを提供できることを望みます。


1
これは非常に役立ちます-自分の理解を深めるために、統計の背景のない人に十分に説明できない場合、私はそれを思ったほど理解していません。
Toof

8

あなたは(ほぼ)正しいです。共分散(したがって相関も)は、数値変数間でのみ計算できます。これには、連続変数だけでなく、離散数値変数も含まれます。

カテゴリ変数は、それらに有用な数値コードが与えられた場合にのみ相関を計算するために使用できますが、これは実用的な利点を得る可能性が低くなります-2つのレベルのカテゴリ変数に役立つ可能性がありますが、他のツールがより適している可能性があります。


ペールのポイントに追加するために、ピアソンの積率相関係数は、2つの変数間の線形関係の度合いを表します。スピアマンのローやケンドールのタウなどのノンパラメトリック測定は、XとYが一緒に増加または減少する傾向があることを特徴づけます(必ずしも線形である必要のない単調な関係のように振る舞います。)
Michael R. Chernick

@Pere:連続変数が2つあるが、そのうちの1つだけが確率的である場合(運動時間と体重など)、何を使用しますか?
MSIS

1
@MSIS-それは別の質問であるべきですが、1つの変数がランダムでない場合でも相関を使用できます。
ペール

1
@Pere:私は場合には、あなたが興味を持っている、尋ねstats.stackexchange.com/questions/435257/...
MSIS

3

変数の1つがカテゴリカルである場合、相関の計算にまったく問題はありません。強い正の相関は、カテゴリ変数をオン(または慣例に応じてオフ)にすると、応答が増加することを意味します。たとえば、変数がカテゴリカルであるロジスティック回帰を計算するときに、これが発生する可能性があります。糖尿病やbmiなどの患者の併存疾患を考慮して、心臓発作の可能性を予測します。この場合、BMIは心臓発作と非常に強い相関関係を持つことになります。それは役に立たないと結論付けますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.