相関と共分散の違いをどのように説明しますか?


109

この質問に続いて、平均のみを理解している人に共分散をどのように説明しますか?、素人に共分散を説明する問題に対処し、私の心の中で同様の質問を持ち出しました。

共分散相関の違いを統計初心者にどのように説明しますか?どちらも別の変数にリンクされている1つの変数の変更を参照しているようです。

言及された質問と同様に、式の欠如が望ましいでしょう。

回答:


109

共分散の問題は、比較が難しいことです:(それぞれ)メートルとキログラムで表されるように、身長と体重のセットの共分散を計算すると、他の単位でそれを行うときとは異なる共分散が得られます(これは、メートル法の有無にかかわらず同じことをしている人々にすでに問題を与えています!)、また、例えば、あなたのつま先と指の長さよりも、例えば、身長と体重が「より多く収まる」かどうかを見分けるのは難しいでしょう、単に共分散が計算される「スケール」が異なるためです。

これに対する解決策は、共分散を「正規化」することです:共分散を両方の共変量の多様性とスケールを表すもので除算し、最終的に相関が-1と1:の間にあることが保証されます。元の変数がどのユニットに属していても、常に同じ結果が得られます。これにより、相関関係を比較するだけで、2つの変数が他の変数よりも「相関」しているかどうかをある程度比較できるようになります。

注:上記は、読者が共分散の概念をすでに理解していることを前提としています。


2
+1最後の文に「共分散」ではなく「相関」と書くつもりですか?
whuberの

共分散を異なる単位と比較することはできませんか?あなたのXがである場合-単位が乗算共分散を通過しcm、そしてあなたのYは、でありs、その後、あなた。そして、結果に単位換算係数を掛けることができます。Rで試してくださいcovバツY=z cmscov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
。– naught101

3
@ naught101私はポイントは私がいることをあなたに言った場合、ということである疑い何もないが、あなたがいるかどうか見当もつかないでしょうXは、高度の予測であるY私はあなたのことを告げた場合のに対し、そうでないかのCorX Y = .9あなたはもう少し解釈可能な何かを持っているでしょう。CovバツY=1010バツYコーバツY=.9

@guy:それは単位なしの共分散になります:PI重要なことは、異なる分散を持つ2つのデータセットからの共分散を簡単に比較できないことだと思います。たとえば、リレーションB = 2 * Aがあり、2つのデータセット{A1、B1}および{A2、B2}があり、A1の分散が0.5、A2の分散が2の場合、は、関係がまったく同じであっても、c o v A 1 B 1 よりもはるかに大きくなりますcovA2B2covA1B1
naught101

3
簡単に言えば、相関関係>共分散
カールモリソン

58

これらのタイプの質問の要件は、少し奇妙に感じます。ここに数学的な概念/式がありますが、数学的な記号がまったくない文脈でそれについて話をしたいと思います。また、数式を理解するために必要な実際の代数は、高等教育の前にほとんどの人に教えられるべきだと述べられるべきだと思います(行列代数の理解は必要なく、単純な代数で十分です)。

そのため、最初は式を完全に無視して、魔法やヒューリスティックな類推の類推で話すのではなく、式を見て、個々のコンポーネントを小さなステップで説明してみましょう。式を見ると、共分散と相関関係の違いが明らかになるはずです。アナロジーとヒューリスティックの観点から言えば、多くの状況で2つの比較的単純な概念とそれらの違いを曖昧にすると思われます。

それでは、サンプルの共分散の式から始めましょう(これらはウィキペディアから取り入れて採用したばかりです)。

1n1=1nバツバツ¯yy¯

誰もが速度を上げるために、式のすべての要素と操作を明示的に定義できます。

  • および y iは、同じ観測値の2つの別個の属性の測定値です。バツy
  • ˉ yは各属性の手段(又は平均)でありますバツ¯y¯
  • 以下のための場合、これは最終結果をn1で割ることを意味します。1n1n1
  • は、一部の人にとっては外部シンボルである可能性があるため、この操作を説明することは役立つでしょう。これは単に i個の個別の観測値の合計であり、 nは観測値の総数を表します。=1nn

この時点で、いわば要素と操作に顔を当てる簡単な例を紹介します。したがって、たとえば、各行が観測値に対応するテーブルを作成します(yには適切なラベルが付けられます)。これらの例をより具体的にする(たとえば、xは年齢を表し、yは体重を表す)可能性がありますが、ここでの説明では重要ではありません。バツyバツy

x y
---
2 5
4 8
9 3
5 6
0 8

この時点で、式の合計演算が完全に理解されていない可能性があると感じた場合は、はるかに簡単なコンテキストで再び導入できます。本だけ言うこの例で言うと同じです。=1nバツ

  x
 --
  2
  4
  9
  5
+ 0
 --
 20

今では混乱を片付けしなければならない、と私たちは式の第二部、に我々の方法を働かせることができる。今、人々はすでに何平均、知っていると仮定するとˉ のxˉ yは放置、と私は言うだろう、以前の記事で、私自身のコメントの偽善的であること、一つは単純なヒューリスティックの面で平均を参照することができます(たとえば、ミドルディストリビューションの)。このプロセスを一度に1つの操作だけで実行できます。声明X I - ˉ Xバツバツ¯yy¯バツ¯y¯バツバツ¯各観測間の偏差/距離、およびその特定の属性のすべての観測の平均を調べるだけです。したがって、観測値が平均値から遠い場合、この操作にはより高い値が与えられます。次に、与えられた例の表に戻って参照し、観測値のベクトルに対する操作を簡単に示します。バツ

x x_bar (x - x_bar)
2 4     -2
4 4      0
9 4      5
5 4      1
0 4     -4

操作はベクトルでも同じですが、強化のためだけにその操作を表示することもできます。y

y y_bar (y - y_bar)
5  6     -1
8  6      2
3  6     -3
6  6      0
8  6      2

さて、用語Y I - ˉ yはあいまいであってはならない、と私たちは、一緒にこれらの結果を乗じ、次の操作に進むことができますX I - ˉ XY I - ˉ Y。コメントでgungが指摘しているように、これはしばしば外積と呼ばれます(おそらく、統計のために基本的な行列代数を導入している場合に立ち直るのに役立つ例でしょう)。バツバツ¯yy¯バツバツ¯yy¯

乗算時に何が起こるかに注意してください.2つの観測値が両方とも平均よりも大きな距離にある場合、結果の観測値はさらに大きな正の値になります(2つの観測値が2つの負の値を乗算して、平均値よりも長い場合正に等しい)。また、一方の観測値が平均値より高く、もう一方の観測値が平均値より十分に低い場合、結果の値は大きく(絶対値で)、負になります(正の値と負の値は負の数に等しくなります)。最後に、値がいずれかの観測値の平均に非常に近い場合、2つの値を乗算すると小さい数になることに注意してください。繰り返しになりますが、この操作はテーブルに表示するだけです。

(x - x_bar) (y - y_bar)  (x - x_bar)*(y - y_bar)
-2             -1                2
 0              2                0  
 5             -3              -15 
 1              0                0
-4              2               -8

n1

(x - x_bar)*(y - y_bar)
-----------------------
   2
   0
 -15
   0
+ -8
-----
 -21

-21/(5-1) = -5.25

この時点で、5がどこから来たのかを補強したいかもしれませんが、それはテーブルに戻って参照し、観測数を数えるのと同じくらい簡単です(サンプルと母集団の差を別の時間に残します)。

ρ

ρ=CovバツyVarバツVary

Covバツバツ=Varバツ)。そして、共分散で導入したのと同じ概念がすべて適用されます(つまり、シリーズがその平均からかけ離れた多くの値を持っている場合、高い分散になります)。ここで、シリーズが負の分散を持つことはできないことに注意してください(これは、前述の数学から論理的に従うべきです)。

VarバツVaryVarバツVary

状況によっては、このレベルの治療は適切ではないことを理解しています。上院はエグゼクティブサマリーが必要です。その場合、他の例で人々が使用している単純なヒューリスティックを参照できますが、ローマは1日で構築されませんでした。エグゼクティブサマリーを求めている上院議員に、もしあなたがあまり時間がないなら、おそらく私の言葉をただ聞き、アナロジーや箇条書きの形式を省くべきです。


4
covバツY=E[バツE[バツ]YE[Y]]
西安

14
+1、これはかなり良いです。ただし、概念的な紹介にはそれほど批判的ではありません。フォーミュラを見せても失われる可能性が十分な数の不安を抱えた人々と仕事をしてきました。私は通常、直感1日/ wを高速化するためにそれらを取得し、その後、単に&徹底的に(あなたがここでやる限り)、数学を歩くその後。そうすれば、彼らは数学が既に知っていることをどのように表すかを学んでいるだけであり、精神的に中途退学した場合でも、大きなアイデアを学んだ。接線のポイントとして、Excelで数学を使用していますが、これは非常に便利です。
GUNG

2
NN1バツバツ¯yy¯ρr、分散ではなくます。ここで、例えば。
グン

@gungのおかげで、最初の式のタイプミスを変更し、相関のために(標準偏差を定義する代わりに)乗算された分散の平方根を取りました。ローと別のシンボルを使用する場合、どちらの方法でもあまり強く感じません。私が教えていて、教科書を持っているなら、私はたぶんテキストに準拠したいと思うでしょう。ギリシャのシンボルがもう1つあれば、混乱は起こらないことを願っています。
アンディW

1
私があなたの答えを100回賛成できれば私はそうします。なんと驚くほど明快な説明でしょう!
ジュリアンA.

10

Var[バツ]Var[y]

つまり、相関は単に共分散の表現であるため、結果は-1(完全に逆相関)から+1(完全に正相関)の間にある必要があります。ゼロに近い値は、2つの変数が無相関であることを意味します。

共分散には制限がなく、他の共分散と比較した場合のコンテキストがありません。共分散を相関に正規化/調整/標準化することにより、データセットをより簡単に比較できます。

ご想像のとおり、統計(共分散など)の正規化/標準化にはさまざまな方法があります。相関と共分散の間の関係の数式は、統計学者が使用する慣習を単純に反映しています(つまり、標準偏差に従って調整します)。

r=covバツyVar[バツ]Var[y]

5

センタリングと標準化の考え方に慣れている場合、x-xbarはxをその平均値でセンタリングすることです。同じことがyにも当てはまります。そのため、共分散は単にデータを集中させます。ただし、相関はデータを中央に配置するだけでなく、標準偏差を使用してスケーリングします(標準化)。乗算と加算は、2つのベクトルの内積であり、これらの2つのベクトルが互いにどの程度平行であるかを示します(一方のベクトルの他方への投影)。(n-1)の除算または期待値の取得は、観測数に応じてスケーリングされます。考え?



-3

相関は、正または負の相関があるかどうかに応じて-1〜+1の間にスケーリングされ、無次元です。ただし、共分散の範囲は、2つの独立変数の場合のゼロから、2つのデータセットが等しい場合のVar(X)までです。COV(X、Y)の単位は、Xの単位にYの単位を掛けたものです。


6
共分散は負の値になる可能性があるため、0に制限されません。また、最後の文で何を意味するのか、はっきりしませんThe units of COV(X,Y) are the units of X times the units of Y.
アンディW

CovバツY=E[バツE[バツ]YE[Y]]

1
@ naught101、ユニットは通過しますか?Nagarajへの私の最初のコメントは、私が主張する引用のような曖昧な声明は誰にとっても役に立たないので、さらに明確にすることでした。それで、なぜ共分散を「xの単位にyの単位を掛けたもの」と解釈できないのか、それはそうではないからです。(サンプルの共分散に関する)より正確な可能性のあるステートメントは、「平均 偏差の積の平均」です。続き...
アンディ・W

1
現在、平均偏差は確かに元の単位と同じではなく、共分散の結果の統計は、元の属性の平均と分散に単純に依存していません。共分散自体は、元の属性の分散を知らなければ何もわかりません。
アンディW
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.