この質問に続いて、平均のみを理解している人に共分散をどのように説明しますか?、素人に共分散を説明する問題に対処し、私の心の中で同様の質問を持ち出しました。
共分散と相関の違いを統計初心者にどのように説明しますか?どちらも別の変数にリンクされている1つの変数の変更を参照しているようです。
言及された質問と同様に、式の欠如が望ましいでしょう。
この質問に続いて、平均のみを理解している人に共分散をどのように説明しますか?、素人に共分散を説明する問題に対処し、私の心の中で同様の質問を持ち出しました。
共分散と相関の違いを統計初心者にどのように説明しますか?どちらも別の変数にリンクされている1つの変数の変更を参照しているようです。
言及された質問と同様に、式の欠如が望ましいでしょう。
回答:
共分散の問題は、比較が難しいことです:(それぞれ)メートルとキログラムで表されるように、身長と体重のセットの共分散を計算すると、他の単位でそれを行うときとは異なる共分散が得られます(これは、メートル法の有無にかかわらず同じことをしている人々にすでに問題を与えています!)、また、例えば、あなたのつま先と指の長さよりも、例えば、身長と体重が「より多く収まる」かどうかを見分けるのは難しいでしょう、単に共分散が計算される「スケール」が異なるためです。
これに対する解決策は、共分散を「正規化」することです:共分散を両方の共変量の多様性とスケールを表すもので除算し、最終的に相関が-1と1:の間にあることが保証されます。元の変数がどのユニットに属していても、常に同じ結果が得られます。これにより、相関関係を比較するだけで、2つの変数が他の変数よりも「相関」しているかどうかをある程度比較できるようになります。
注:上記は、読者が共分散の概念をすでに理解していることを前提としています。
cm
、そしてあなたのYは、でありs
、その後、あなた。そして、結果に単位換算係数を掛けることができます。Rで試してくださいcov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
これらのタイプの質問の要件は、少し奇妙に感じます。ここに数学的な概念/式がありますが、数学的な記号がまったくない文脈でそれについて話をしたいと思います。また、数式を理解するために必要な実際の代数は、高等教育の前にほとんどの人に教えられるべきだと述べられるべきだと思います(行列代数の理解は必要なく、単純な代数で十分です)。
そのため、最初は式を完全に無視して、魔法やヒューリスティックな類推の類推で話すのではなく、式を見て、個々のコンポーネントを小さなステップで説明してみましょう。式を見ると、共分散と相関関係の違いが明らかになるはずです。アナロジーとヒューリスティックの観点から言えば、多くの状況で2つの比較的単純な概念とそれらの違いを曖昧にすると思われます。
それでは、サンプルの共分散の式から始めましょう(これらはウィキペディアから取り入れて採用したばかりです)。
誰もが速度を上げるために、式のすべての要素と操作を明示的に定義できます。
この時点で、いわば要素と操作に顔を当てる簡単な例を紹介します。したがって、たとえば、各行が観測値に対応するテーブルを作成します(とyには適切なラベルが付けられます)。これらの例をより具体的にする(たとえば、xは年齢を表し、yは体重を表す)可能性がありますが、ここでの説明では重要ではありません。
x y
---
2 5
4 8
9 3
5 6
0 8
この時点で、式の合計演算が完全に理解されていない可能性があると感じた場合は、はるかに簡単なコンテキストで再び導入できます。本だけ言うこの例で言うと同じです。
x
--
2
4
9
5
+ 0
--
20
今では混乱を片付けしなければならない、と私たちは式の第二部、に我々の方法を働かせることができる。今、人々はすでに何平均、知っていると仮定するとˉ のxとˉ yは放置、と私は言うだろう、以前の記事で、私自身のコメントの偽善的であること、一つは単純なヒューリスティックの面で平均を参照することができます(たとえば、ミドルディストリビューションの)。このプロセスを一度に1つの操作だけで実行できます。声明(X I - ˉ X)各観測間の偏差/距離、およびその特定の属性のすべての観測の平均を調べるだけです。したがって、観測値が平均値から遠い場合、この操作にはより高い値が与えられます。次に、与えられた例の表に戻って参照し、観測値のベクトルに対する操作を簡単に示します。
x x_bar (x - x_bar)
2 4 -2
4 4 0
9 4 5
5 4 1
0 4 -4
操作はベクトルでも同じですが、強化のためだけにその操作を表示することもできます。
y y_bar (y - y_bar)
5 6 -1
8 6 2
3 6 -3
6 6 0
8 6 2
さて、用語と(Y I - ˉ yは)あいまいであってはならない、と私たちは、一緒にこれらの結果を乗じ、次の操作に進むことができます(X I - ˉ X)⋅ (Y I - ˉ Y)。コメントでgungが指摘しているように、これはしばしば外積と呼ばれます(おそらく、統計のために基本的な行列代数を導入している場合に立ち直るのに役立つ例でしょう)。
乗算時に何が起こるかに注意してください.2つの観測値が両方とも平均よりも大きな距離にある場合、結果の観測値はさらに大きな正の値になります(2つの観測値が2つの負の値を乗算して、平均値よりも長い場合正に等しい)。また、一方の観測値が平均値より高く、もう一方の観測値が平均値より十分に低い場合、結果の値は大きく(絶対値で)、負になります(正の値と負の値は負の数に等しくなります)。最後に、値がいずれかの観測値の平均に非常に近い場合、2つの値を乗算すると小さい数になることに注意してください。繰り返しになりますが、この操作はテーブルに表示するだけです。
(x - x_bar) (y - y_bar) (x - x_bar)*(y - y_bar)
-2 -1 2
0 2 0
5 -3 -15
1 0 0
-4 2 -8
(x - x_bar)*(y - y_bar)
-----------------------
2
0
-15
0
+ -8
-----
-21
-21/(5-1) = -5.25
この時点で、5がどこから来たのかを補強したいかもしれませんが、それはテーブルに戻って参照し、観測数を数えるのと同じくらい簡単です(サンプルと母集団の差を別の時間に残します)。
)。そして、共分散で導入したのと同じ概念がすべて適用されます(つまり、シリーズがその平均からかけ離れた多くの値を持っている場合、高い分散になります)。ここで、シリーズが負の分散を持つことはできないことに注意してください(これは、前述の数学から論理的に従うべきです)。
状況によっては、このレベルの治療は適切ではないことを理解しています。上院はエグゼクティブサマリーが必要です。その場合、他の例で人々が使用している単純なヒューリスティックを参照できますが、ローマは1日で構築されませんでした。エグゼクティブサマリーを求めている上院議員に、もしあなたがあまり時間がないなら、おそらく私の言葉をただ聞き、アナロジーや箇条書きの形式を省くべきです。
相関は、正または負の相関があるかどうかに応じて-1〜+1の間にスケーリングされ、無次元です。ただし、共分散の範囲は、2つの独立変数の場合のゼロから、2つのデータセットが等しい場合のVar(X)までです。COV(X、Y)の単位は、Xの単位にYの単位を掛けたものです。
The units of COV(X,Y) are the units of X times the units of Y.
。