平均のみを理解している人に共分散をどのように説明しますか?


207

...分散についての知識を直感的に増やすことができると仮定して(「分散」を直感的に理解する)、または「平均」からのデータ値の平均距離であり、分散は平方であるため単位、平方根を使用して単位を同じに保ちます。これは標準偏差と呼ばれます。

これが「レシーバー」によって明確に表現され、(できれば)理解されると仮定しましょう。共分散とは何ですか?数学用語/式を使用せずに単純な英語でどのように説明しますか?(つまり、直感的な説明。;)

注意してください:私は概念の背後にある式と数学を知っています。私は、数学を含めずに、同じことを分かりやすい方法で「説明」できるようにしたいと考えています。すなわち、「共分散」とはどういう意味ですか?


1
@ Xi'an- 単純な線形回帰で「どのように」正確に定義しますか?私は本当に...知りたい
博士課程

3
原点が(0,0)の2つの変数x yの散布図が既にあると仮定すると、x = mean(x)(垂直)とy = mean(x)(水平)に2本の線を引くだけです。この新しい座標系を使用して(原点は(mean(x)、mean(y))にあり、右上と左下の象限に「+」記号を、他の2つの象限に「-」記号を入れます。あなたは基本的に、共分散の符号得@Peterが言った。で説明したように、x軸および(SDによって)Y単位以上解釈要約をもたらすスケーリング続くスレッド
CHL

1
@chl-それを回答として投稿し、グラフィックを使用して描写してください。
博士

このウェブサイトでビデオを見つけたのは、抽象的な説明よりも画像のほうが好きだからです。ビデオ付きのウェブサイト具体的には、この画像:![ここに画像の説明を入力 ](i.stack.imgur.com/xGZFv.png
カールモリソン

回答:


375

時々、通常とは異なるアプローチで「知識を増やす」ことができます。幼稚園児がこの返信にアクセスできるようになり、楽しい時間を過ごして、クレヨンを手に入れてください!

ペアのデータを与えて、散布図を描きます。(若い学生が:-)それらのためにこれを製造するために教師を必要とするかもしれない点の各対、そのプロットでは、長方形を決定する:それは、その辺に平行な最小の矩形、ですこれらのポイントを含む軸。したがって、ポイントは、右上隅と左下隅にあるか(「正」関係)、左上隅と右下隅にあります(「負」関係)。(x,y)(xi,yi)(xj,yj)

そのような長方形をすべて描画します。それらを透明に着色し、正の長方形を赤(たとえば)、負の長方形を「反赤」(青)にします。この方法では、長方形が重なるところはどこでも、同じ色(青と青または赤と赤)で色が強調されるか、異なる場合はキャンセルされます。

正と負の長方形

この図では、正(赤)と負(青)の長方形のオーバーラップは白であるはずです。残念ながら、このソフトウェアには真の「アンチレッド」カラーはありません。オーバーラップはグレーなので、プロットしますが、全体として赤正味量は正しいです。

これで、共分散の説明の準備が整いました。

共分散は、プロットの正味の赤の量です(青を負の値として扱います)。

負の最大値(最も青い)から最も正の値(最も赤い)の順序で、指定された共分散の分布から抽出された32の従法線ポイントの例を次に示します。

共分散プロット、2019更新

それらは比較できるように共通の軸に描かれます。長方形は、見やすくするために輪郭が薄く示されています。これは、オリジナルの更新された(2019)バージョンです。重複する長方形の赤とシアンの色を適切にキャンセルするソフトウェアを使用します。

共分散のいくつかの特性を推測しましょう。 これらのプロパティを理解するには、実際にいくつかの長方形を描いた人なら誰でもアクセスできます。:-)

  • 双線形性。赤の量はプロットのサイズに依存するため、共分散はx軸のスケールとy軸のスケールに直接比例します。

  • 相関。共分散は、ポイントが上向きの傾斜線に近づくにつれて増加し、ポイントが下向きの傾斜線に近づくにつれて減少します。これは、前者の場合、ほとんどの長方形が正であり、後者の場合、ほとんどが負であるためです。

  • 線形連想との関係。非線形の関連付けは正と負の長方形の混合を作成する可能性があるため、予測不可能な(あまり有用ではない)共分散になります。線形の関連付けは、前述の2つの特性評価によって完全に解釈できます。

  • 外れ値に対する感度。幾何学的な外れ値(質量から離れた1つのポイント)は、他のすべてのポイントに関連して多くの大きな長方形を作成します。それだけで、全体像に正味の正または負の量の赤を作成できます。

ちなみに、この共分散の定義は、普遍的な比例定数(データセットサイズに依存しない)のみが通常の定義と異なります。ここで与えられた式は常に通常の共分散の2倍であるという代数的証明を実行するのに数学的に傾いている人は問題ありません。


92
+1うわー。これは、それが何であるかをすでに知っているとすでに考えている人々に共分散を説明するためにも機能します。
アーロン

7
+1回答を読むのは本当に楽しいです。私はいくつかの長方形を描き、息子にそれらを塗らせます:)
chl

18
これで、すべての入門統計概念のみをこの明快な方法で学生に提示できれば…
MannyG

4
美しいです。そして非常に明確です。
ベンジャミンマコヒル

4
@fcoppens実際、あなたが提案するように進む伝統的な説明があります。これは、不必要なアイデア、つまり重心構築するアイデアを導入したくなかったためです。それは、クレヨンの箱で5歳の人が説明にアクセスできないようにするでしょう。私が最後に描いた結論のいくつかは、すぐにでも得られないでしょう。たとえば、共分散が特定の種類の外れ値に敏感であることは、それほど明白ではなくなります。(x¯,y¯)
whuber

61

私のコメントを詳しく説明するために、私は共分散を2つの変数、たとえばと間の(平均)共変動の尺度として教えていました。yxy

基本式を思い出すと便利です(説明が簡単で、入門コースの数学的期待について話す必要はありません):

cov(x,y)=1ni=1n(xix¯)(yiy¯)

そのため、各観測値は、2つの変数およびの平均からの偏差の積に応じて、共分散に正または負に寄与する可能性があることが明確にわかります。ここで大きさについて話すのではなく、単にi番目の観測の寄与のサインについて話すことに注意してください。ˉ X ˉ Y(xi,yi)x¯y¯

これは、次の図に示したものです。人工データは線形モデルを使用して生成されました(左、 ;右、、ここではゼロ平均とガウス分布から引き出されました。そして間隔で一様分布から)。y=1.2x+εy=0.1x+εεSD=2x[0,20]

ここに画像の説明を入力してください

垂直バーと水平バーは、それぞれと平均を表します。つまり、原点から「個々の観測値を見る」代わりに、から行うことができます。これは、x軸とy軸の平行移動に相当します。この新しい座標系では、右上または左下の象限に位置するすべての観測値が共分散にプラスに寄与し、他の2つの象限に位置する観測値は共分散にマイナスに寄与します。最初のケース(左)では、共分散は30.11に等しく、4つの象限の分布は以下のとおりです。xy(0,0)(x¯,y¯)

   +  -
+ 30  2
-  0 28

明らかに、がそれらの平均を上回る場合、対応する(wrt。)も同様です。値が増加すると値も増加する傾向がある場合に、2Dクラウドポイントの形状を目で確認します。(ただし、共分散と回帰直線の傾きとの間に明確な関係があること、つまり使用することもでき。)xiyiy¯xyb=Cov(x,y)/Var(x)

2番目のケース(右、同じ)では、共分散は3.54に等しく、象限にわたる分布は、以下に示すようにより「均一」です。xi

   +  -
+ 18 14
- 12 16

言い換えると、とが同じ方向wrtでカバーしないケースが増えています。その手段。xiyi

またはいずれかをスケーリングすることにより、共分散を削減できることに注意してください。左のパネルでは、(または)の共分散が10倍(3.01)減少しています。測定の単位とと広がり(それらの平均と比較して)は絶対項で共分散の値を解釈するのを難しくするので、一般に両方の変数を標準偏差でスケーリングし、相関係数を取得します。これは、散布図をに再センタリングすることに加えてY X / 10 Y X Y / 10 のX Y X Y ˉのXˉ YのX Yxy(x/10,y)(x,y/10)xy(x,y)(x¯,y¯)また、標準偏差の観点からxおよびy単位をスケーリングします。これにより、と間の線形共分散のより解釈可能な尺度が得られます。xy


28

共分散は、1つの変数が他の変数が上昇するときにどれだけ上昇するかの尺度です。


1
常に「同じ」方向ですか?また、逆の関係にも適用されますか(つまり、一方が上に行くと他方が下に下がる)。
PhD

4
@nupulさて、「上」の反対は「下」であり、「正」の反対は「負」です。私は一文で答えようとしました。あなたのものはより完全です。「2つの変数がどのように一緒に変化するか」でさえ、より完全ですが、理解するのは少し難しいと思います。
ピーター・フロム

1
+1を1つの単純な文に収めることができますが、その相関関係はありませんか?つまり、cov => corrが大きいことはわかっていますが、その文では、corr = 0.8に対応する答えとして「80%」のようなものを期待しています。covはデータ内の分散も記述しませんか?すなわち。「共分散は、一方の変数が他方の変数が上昇するときにどれだけ上昇するかに比例し、両方の変数のデータの広がりに比例する」、または何か?
naught101

4
そうです、ピーター、@ naught101がそのコメントをした理由です:あなたの説明は変化率のように聞こえます。したがって、その単位は[1つの変数の単位] / [他の変数の単位]です)または単に[1つの変数の単位]になります(純粋な違いとして解釈する場合)。これらは共分散(測定単位は2つの変数の単位の積)でも相関(単位なし)でもありません。
whuber

1
XY1,YXY

12

自分の質問に答えていますが、この記事に出てくる人々がこのページの説明のいくつかをチェックするのは素晴らしいことだと思いました。

私は非常に明確に表現された答えの1つを言い換えています(ユーザー「Zhop」による)。誰かが今からこの投稿にアクセスしたときに、そのサイトがシャットダウンしたり、ページが削除されたりした場合に備えてそうしています。

共分散は、2つの変数が同時に変化する度合いの尺度です。これを、1つのメジャー(または変数)が変化する範囲である分散と比較してください。

社会的パターンを研究する際に、裕福な人々はより教育を受けている可能性が高いという仮説を立てることができます。そのため、富と教育の測定値がどれだけ密接に関連しているかを確認してください。これを決定するには、共分散の尺度を使用します。

...

統計にどのように適用されるのかを尋ねたとき、私はあなたが何を意味するのか分かりません。これは、多くの統計クラスで教えられている1つの尺度です。いつ使うべきなの?

2つ以上の変数が互いにどの程度変化するかを確認する場合に使用します。

チームの人のことを考えてください。地理的位置が互いにどのように異なるかを見てください。チームがプレーまたは練習しているとき、個々のメンバー間の距離は非常に小さく、同じ場所にいると言えます。そして、彼らの場所が変わるとき、それはすべての個人のために一緒に変わります(たとえば、バスでゲームに行く)。この状況では、共分散のレベルが高いと言えます。しかし、彼らが遊んでいないときは、共分散率はかなり低いでしょう。なぜなら、それらはすべて異なる速度で異なる場所に行くからです。

そのため、あるチームメンバーの位置を、他のチームメンバーが高い精度で練習またはゲームをプレイしているときの位置に基づいて予測できます。共分散測定は1に近いと思います。しかし、彼らが練習やプレーをしていないときは、チームメンバーの位置に基づいて、1人の位置を予測する可能性ははるかに低くなります。おそらくチームメンバーは友達になり、自分の時間に一緒に場所に行くことがあるので、おそらくゼロではありませんが、ゼロに近いでしょう。

ただし、米国でランダムに個人を選択し、そのうちの1人を使用して相手の位置を予測しようとすると、共分散がゼロであることがわかります。言い換えれば、ランダムに選択された1人の米国の場所と別の場所との間にはまったく関係がありません。

直観を補強するのに役立つ別の(「CatofGrey」による)追加:

確率論と統計学では、共分散は、2つのランダム変数がどれだけ変化するかの尺度です(分散とは異なり、単一の変数の変化を測定します)。

2つの変数が一緒に変化する傾向がある場合(つまり、一方が期待値を上回る場合、もう一方の変数も期待値を上回る傾向がある場合)、2つの変数間の共分散は正になります。一方、一方が期待値を上回り、もう一方の変数が期待値を下回る傾向がある場合、2つの変数間の共分散は負になります。

これらの2つを組み合わせることで、共分散を理解できたことがあります。ただ素晴らしい!!


15
これらの記述は定性的示唆しているが、悲しいことに、彼らは不完全です:彼らは相関関係から共分散を区別していないどちらも(最初の記述は、実際には、両者を混同するように見える)、また彼らがの基本的な前提引き出す行うリニア共同バリエーションを。また、共分散が各変数のスケールに(線形に)依存するという重要な側面も扱いません。
whuberの

@whuber-同意しました!そして、それゆえ、私の答えを答えとしてマークしていない:)(まだではない;)
PhD

12

私はWhuberの答えが本当に好きなので、さらにリソースを集めました。共分散は、変数がどこまで広がっているかと、その関係の性質の両方を表します。

共分散は、長方形を使用して、散布図の平均から観測値がどれだけ離れているかを示します。

  • 長方形に長辺と高幅または短辺と短幅がある場合、2つの変数が一緒に移動する証拠が得られます。

  • 長方形に、その変数に対して比較的長い2つの辺と、他の変数に対して比較的短い2つの辺がある場合、この観察結果は、変数があまりうまく動かない証拠を提供します。

  • 長方形が第2または第4象限にある場合、一方の変数が平均よりも大きい場合、もう一方は平均よりも小さくなります。1つの変数の増加は、他の変数の減少と関連しています。

これのクールな視覚化はhttp://sciguides.com/guides/covariance/で見つけました。平均を知っている場合の共分散とは何かを説明しています。


7
+1ニースの説明(特に、その導入的な一文の要約)。リンクは面白いです。Waybackマシンにはアーカイブがないため、おそらく新しいものです。私の(3歳の)答えと非常によく似ているので、正の関係は赤、負の関係は青の選択に至るまで、このサイトの資料の(未分配の)派生物であると思われます。
whuber

4
「クールな視覚化」リンクが終了しました...。
whuber

1
@MSIS円上には非常に多くの可能な分布があるため、それを把握することはできません。しかし、一様分布を参照している場合、(stats.stackexchange.com/q/414365/919のスレッドでコメントを思い出したように)相関係数はそれ自身の負のQEDに
whuber

1
XX0XX2X1,XX2:11
whuber

1
α,a<αb((ba)mod2π)/(2π).

10

これは、画像との共分散を説明する別の試みです。下の図のすべてのパネルには、行ラベルと列ラベルに示されているように、0.8のxとyの相関と分散の2変量分布からシミュレートされた50ポイントが含まれています。共分散は、各パネルの右下隅に表示されます。

さまざまな共分散、すべて相関= 0.8

これを改善することに興味のある人は...ここにRコードがあります:

library(mvtnorm)

rowvars <- colvars <- c(10,20,30,40,50)

all <- NULL
for(i in 1:length(colvars)){
  colvar <- colvars[i]
  for(j in 1:length(rowvars)){
    set.seed(303)  # Put seed here to show same data in each panel
    rowvar <- rowvars[j]
    # Simulate 50 points, corr=0.8
    sig <- matrix(c(rowvar, .8*sqrt(rowvar)*sqrt(colvar), .8*sqrt(rowvar)*sqrt(colvar), colvar), nrow=2)
    yy <- rmvnorm(50, mean=c(0,0), sig)
    dati <- data.frame(i=i, j=j, colvar=colvar, rowvar=rowvar, covar=.8*sqrt(rowvar)*sqrt(colvar), yy)
    all <- rbind(all, dati)
  }
}
names(all) <- c('i','j','colvar','rowvar','covar','x','y')
all <- transform(all, colvar=factor(colvar), rowvar=factor(rowvar))
library(latticeExtra)
useOuterStrips(xyplot(y~x|colvar*rowvar, all, cov=all$covar,
                      panel=function(x,y,subscripts, cov,...){
                        panel.xyplot(x,y,...)
                        print(cor(x,y))
                        ltext(14,-12, round(cov[subscripts][1],0))
                      }))

10

@whuberの答えが気に入りました-共分散をどのように視覚化できるかについて漠然と考えているだけでしたが、それらの長方形のプロットは天才です。

ただし、共分散の式には平均値が含まれ、OPの元の質問には「受信者」が平均値の概念を理解していると書かれているため、各データポイントをxとyの平均。これは共分散式で行われていることをより多く表します。実際、かなり直感的に見えると思いました。 「異なる相関を持つ変数の共分散グラフ」

各プロットの中央にある青い点は、xの平均(x_mean)とyの平均(y_mean)です。

長方形は、各データポイントのx-x_meanとy-y_meanの値を比較しています。

次のいずれかの場合、長方形は緑色です。

  • xとyの両方がそれぞれの平均よりも大きい
  • xとyの両方がそれぞれの平均よりも小さい

次の場合、長方形は赤になります。

  • xはx_meanより大きいが、yはy_meanより小さい
  • xはx_meanより小さいが、yはy_meanより大きい

共分散(および相関)は、強い負と強い正の両方になります。グラフが他の色よりも1つの色によって支配されている場合、それはデータがほとんど一貫したパターンに従うことを意味します。

  • グラフが赤よりも緑が多い場合、xが増加するとyは一般に増加することを意味します。
  • グラフの緑よりも赤が多い場合、xが増加するとyは一般に減少することを意味します。
  • グラフの色が他の色に支配されていない場合、xとyの相互関係にあまりパターンがないことを意味します。

2つの異なる変数xおよびyの共分散の実際の値は、基本的にすべての緑の領域からすべての赤の領域を引いた合計をデータポイントの総数で除算したものです。 。

それはどのように聞こえますか?


3

分散は、ランダム変数が表す基になるプロセスの確率的性質のために、ランダム変数がその期待値に対して変化する度合いです。

共分散は、2つの異なるランダム変数が相互に変化する度合いです。これは、ランダム変数が同じ基になるプロセスまたはその派生物によって駆動される場合に発生する可能性があります。これらのランダム変数で表されるプロセスが相互に影響を与えているか、同じプロセスであるが、ランダム変数の1つが他の変数から派生しています。


2

私は単純に、非常に直感的な相関関係を説明します。「相関は2つの変数XとYの間の関係の強さを測定します。相関は-1と1の間であり、関係が強い場合は絶対値で1に近くなります。共分散は単に相関に標準偏差を掛けたものですしたがって、相関は無次元ですが、共分散は変数Xと変数Yの単位の積になります。


10
直線性についての言及がないため、これは不適切と思われます。XとYには強い2次関係がありますが、相関はゼロです。
mark999

0

高い正の共分散(相関)を持つ2つの変数は、部屋にいる人の数と、部屋にいる指の数です。(人の数が増えると、指の数も増えると予想されます。)

負の共分散(相関)を持っている可能性のあるものは、人の年齢と頭の毛包の数です。または、(特定の年齢層の)人の顔のジッツの数、および1週間の日付の数。年齢が長いほど髪の毛が少なくなり、にきびが多い人は日付が短くなります。これらは負の相関関係にあります。


2
共分散は相関と必ずしも交換可能ではありません-前者は非常に単位依存です。相関関係は、IMO共分散の「強さ」を表す単位レススカラの間-1と1の数であり、それはあなたの答えからはっきりしていない
博士

答えは、共分散と相関を同じ意味で使用できることを意味するため、ダウンボットです。
sapo_cosmico
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.