共分散が-150の場合、2つの変数間の関係の種類は何ですか?


8

2つの変数の共分散は-150と計算されています。2つの変数間の関係について統計は何を伝えていますか?


9
共分散はユニットフリーではないため、生の数値はそれ自体では意味を伝えません。0未満ということを除けば、言うべきことはあまりありません。
Glen_b-モニカの復活2017

9
私の変数の平均はです。大きいですか、小さいですか。317
whuber

回答:


34

ŁukaszDeryłoの答えに追加するには、彼が書いているように、-150の共分散は負の関係を意味します。これが強い関係か弱い関係かは、変数の分散に依存します。以下に、強い関係の例(各個別の変数の分散は200であるため、共分散は分散と比較して絶対値で大きい)と、弱い関係の例(各分散は2000であるため、共分散は小さい)をプロットします、分散と比較して絶対的に)。

強い関係、variance <- 200

強い関係

弱い関係、variance <- 2000

ここに画像の説明を入力してください

Rコード:

library(MASS)

nn <- 100
epsilon <- 0.1
variance <- 2000 # weak relationship

opar <- par(mfrow=c(2,2))
    for ( ii in 1:4 ) {
        while ( TRUE ) {
            dataset <- mvrnorm(n=100,mu=c(0,0),Sigma=rbind(c(2000,-150),c(-150,2000)))
            if ( abs(cov(dataset)[1,2]-(-150)) < epsilon ) break
        }   
        plot(dataset,pch=19,xlab="",ylab="",main=paste("Covariance:",cov(dataset)[1,2]))
    }
par(opar)

編集:アンスコムのカルテット

whuberが指摘しているように、共分散自体は実際にはデータセットについて多くのことを教えてくれません。説明のために、Anscombeのカルテットを使用して、少し変更します。非常に異なる散布図がすべて同じ(丸められた)共分散-150を持つことができることに注意してください。

アンスコム

anscombe.mod <- anscombe
anscombe.mod[,c("x1","x2","x3","x4")] <- sqrt(150/5.5)*anscombe[,c("x1","x2","x3","x4")]
anscombe.mod[,c("y1","y2","y3","y4")] <- -sqrt(150/5.5)*anscombe[,c("y1","y2","y3","y4")]
opar <- par(mfrow=c(2,2))
    with(anscombe.mod,plot(x1,y1,pch=19,main=paste("Covariance:",round(cov(x1,y1),0))))
    with(anscombe.mod,plot(x2,y2,pch=19,main=paste("Covariance:",round(cov(x2,y2),0))))
    with(anscombe.mod,plot(x3,y3,pch=19,main=paste("Covariance:",round(cov(x3,y3),0))))
    with(anscombe.mod,plot(x4,y4,pch=19,main=paste("Covariance:",round(cov(x4,y4),0))))
par(opar)

最終編集(約束します!)

最後に、ここに-150の共分散があり、と間でおそらく最も希薄な「負の関係」が考えられます。yバツy

最後の

xx <- yy <- seq(0,100,by=10)
yy[9] <- -336.7
plot(xx,yy,pch=19,main=paste("Covariance:",cov(xx,yy)))

プロットを見るのはいいことです。2つの提案:(1)可能な動作の範囲を広げます。共分散は全体的な関係についてまったく何も伝えないので、1つの影響力のある外れ値を投入して、関係がどのように強く一貫して正になるかを示しながら、共分散が負になる可能性があることを示すことができます。(2)より効率的になる:サンプルデータを生成した後、それらを再スケーリングして目的の共分散を実現します。これにより、しきい値に達するまで繰り返しデータを生成する必要がなくなります。正確な値を保証します。「-150」の意味がほとんどないことを示しています。
whuber

@whuber:私は正直になります-与えられたデータセットを変更して与えられた共分散を実現する方法を理解するには、私は愚かでした。CVのグーグル検索は役に立たなかったので、結局、私はブルートフォースリジェクションサンプリングを行いました。私は自分自身に少し不満を感じています。任意のヒントをいただければ幸いです。
ステファンコラサ2017

何か追加すべきことは、Datasaurus Dozenを見たことがありますか?今年初めに発表されたAnscombeのカルテットのさらに誇張されたバージョンです。オリジナルのオンライン出版物はこちら
ギルヘルムマルテ

1
私は、一つには、あなたを「ばか」の反対であると考えています、そして、私は一つの方法を示して喜んでいます。と一方または両方をスケーリングできます。これを対称的に行うには、データを生成します。それらの計算された共分散をます。される"スケール"を定義と"記号"すること場合、、さもなければ。データ(の順序を保持し、おそらく逆にする)には、共分散があります。y x y v s = バツyバツyvs=|150/v|あなた1150/v<01sバツあなたsyバツy150
Covsバツあなたsy=sあなたsCovバツy=あなたs2v=±あなた150vv=150。
(編集用、+ 1)
whuber

@Guilherme stats.stackexchange.com/a/152034/919の回答で、必要プロパティを指定するだけでそのような例を自由に作成できるソフトウェアを提供することで、私はそれらすべてを超えました。例として、Anscombeのカルテットを再現するためにコードを使用しました。
whuber

7

それは関係が否定的であることだけを教えてくれます。これは、1つの変数の低い値が他の高い値と一緒に発生する傾向があることを意味します。

(あなたの関係が強いか、弱い場合)ので、この共分散が大きいか小さいかどうか言うことは困難であるからの範囲に。したがって、変数の規模によって異なります。- S D X S D Y S D X S D Y covバツYsdバツsdYsdバツsdY

この関係が強いかどうかを判断するには、共分散を相関に変換する必要があります(除算)。これはから範囲であり、解釈に関する多くの異なるガイドラインがWebおよび教科書にあります。- 1 1sdバツsdY11

相関の有意性のテストも実行できます。


2
この解釈は、一般的ではありますが、意味と一般的な傾向を混同しています。データの大部分が正の関係に従う場合でも、共分散は簡単に負になる可能性があります。
whuber

ウィキペディア:ピアソン相関係数
ポール
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.