ピアソン相関係数の基礎


8

ピアソン相関係数は、式を使用して計算されます。この式には、2つの変量とが相関しているかどうかの情報がどのように含まれていますか?または、相関係数のこの式をどのように取得しますか? XYr=cov(X,Y)var(X)var(Y)XY

回答:


8

問題はです。分母covバツYは測定単位を取り除くためのものです(たとえば、Xがメートルで測定され、Yがキログラムで測定される場合、covXYはメートルキログラムで測定されます理解するため)および標準化のため(corXYは-1と1の間にあります。var(X)var(Y)XYcov(X,YcorバツY

今度は戻ります。これは、変数が平均についてどのように一緒に変化するか、したがって共分散を示します。例を挙げましょう。covバツYここに画像の説明を入力してください

線は、サンプル平均および描かれます。右上隅のポイントは、と両方が平均より上にあるため、と両方が正です。左下隅のポイントは平均値を下回っています。どちらの場合も、積は正です。逆に、左上と右下はこの積がマイナスの領域です。ˉ Y XI、YIXI- ˉ XYI- ˉ YXI- ˉ XYI- ˉ Yバツ¯Y¯バツYバツバツ¯YY¯バツバツ¯YY¯

ここで、共分散する場合、正の積が優勢であり、結果として正の共分散になります。この共分散は、点が点横切る想像上の線に近づくと大きくなり。XI- ˉ XYI- ˉ Y ˉcovバツY=11Σ=1バツバツ¯YY¯バツバツ¯YY¯バツ¯Y¯

最後に、共分散は線形関係の強さのみを示します。関係が非線形の場合、共分散はそれを検出できません。


covariance shows only the strength of a linear relationship本当じゃない。Covは直線性の強さと変動の大きさの両方に敏感です。厳密に線形関係にあるXとYを取ります。次に、Xの2つの端点を引き離して、var(X)を拡大します。二変量クラウドはもはや線形ではありません-それはただ単調です。それでも、cov(X、Y)は大きくなりました!ただし、var(X)+ var(Y)の合計をその初期値に戻すと、cov(X、Y)は初期値よりも低くなり、以前に直線性を乱したという事実を反映します。
ttnphns 2012年

うわー、面白いですね。
danas.zuokas

3

表示する式で、3つの用語cov (X、Y)var(X)およびvar(Y)のn-1による「分割度」を削除すると、rのさらに基本的な式が得られます。、ここで、SCPは「合計クロス積」、SSは「平方和」です。通常、これはコサインの式です。しかし、XYは中央に配置されるため(「偏差の外積の合計」と「偏差の2乗の合計」)、rの式になります。-rは、中央に配置された変数間の余弦です。SCPバツYSSバツSSY

ここで、コサインは比例の尺度です。cos(X、Y)= 1は、Xi = kYiの場合、つまりすべてのポイント(i)がX対Y座標系の原点からの直線上にある場合に限ります。直線が原点を通過しない場合、または直線から離れた点の場合、cosは小さくなります。ピアソンrX軸とY軸の両方を中心とした雲のcosであるため、線は必然的に原点を通過します。したがって、直線上にあるポイントからの逸脱だけがrを減少させることができます。r直線


1

r = 1の場合、完全な線形相関があり、r = -1の場合、完全な負の線形相関があり、r = 0の場合、線形相関はありません。XとYの標準偏差で除算する理由は、スケールに依存しないメジャーを取得するためです。

詳細な回答については、このスレッドを参照してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.