回答:
問題はです。分母√は測定単位を取り除くためのものです(たとえば、Xがメートルで測定され、Yがキログラムで測定される場合、cov(X、Y)はメートルキログラムで測定されます理解するため)および標準化のため(cor(X、Y)は-1と1の間にあります。
今度は戻ります。これは、変数が平均についてどのように一緒に変化するか、したがって共分散を示します。例を挙げましょう。
線は、サンプル平均および描かれます。右上隅のポイントは、と両方が平均より上にあるため、と両方が正です。左下隅のポイントは平均値を下回っています。どちらの場合も、積は正です。逆に、左上と右下はこの積がマイナスの領域です。ˉ Y XI、YI(XI- ˉ X)(YI- ˉ Y)(XI- ˉ X)(YI- ˉ Y)
ここで、共分散する場合、正の積が優勢であり、結果として正の共分散になります。この共分散は、点が点横切る想像上の線に近づくと大きくなり。(XI- ˉ X)(YI- ˉ Y)( ˉ
最後に、共分散は線形関係の強さのみを示します。関係が非線形の場合、共分散はそれを検出できません。
表示する式で、3つの用語cov (X、Y)、var(X)およびvar(Y)のn-1による「分割度」を削除すると、rのさらに基本的な式が得られます。、ここで、SCPは「合計クロス積」、SSは「平方和」です。通常、これはコサインの式です。しかし、XとYは中央に配置されるため(「偏差の外積の合計」と「偏差の2乗の合計」)、rの式になります。-rは、中央に配置された変数間の余弦です。
ここで、コサインは比例の尺度です。cos(X、Y)= 1は、Xi = kYiの場合、つまりすべてのポイント(i)がX対Y座標系の原点からの直線上にある場合に限ります。直線が原点を通過しない場合、または直線から離れた点の場合、cosは小さくなります。ピアソンrはX軸とY軸の両方を中心とした雲のcosであるため、線は必然的に原点を通過します。したがって、直線上にあるポイントからの逸脱だけがrを減少させることができます。rは直線。
covariance shows only the strength of a linear relationship
本当じゃない。Covは直線性の強さと変動の大きさの両方に敏感です。厳密に線形関係にあるXとYを取ります。次に、Xの2つの端点を引き離して、var(X)を拡大します。二変量クラウドはもはや線形ではありません-それはただ単調です。それでも、cov(X、Y)は大きくなりました!ただし、var(X)+ var(Y)の合計をその初期値に戻すと、cov(X、Y)は初期値よりも低くなり、以前に直線性を乱したという事実を反映します。