相関係数は回帰スロープとどのように異なりますか?


69

相関係数は回帰スロープ(ベータ)と同じであると予想していましたが、2つを比較したところ、それらは異なります。それらはどのように違いますか-彼らはどのような異なる情報を与えますか?


3
それらが正規化されている場合、それらは同じです。しかし、ユニットを変更するとどうなるかを考えてください
...-ニコラス

私はにトップスコアの答えを考えて、このQ(多分、私のA私たちは上のXおよびX上のYを退行場合、相関係数は、我々が得る2つの斜面の幾何平均の絶対値として見ることができることを示していることにy、それぞれ)もここに関連します
statmerkur

回答:


82

あなたは、単純な回帰モデルの話をしていると仮定すると、最小二乗によって推定、我々は知っているウィキペディアからしたがって、この2つは場合にのみ一致します。つまり、ある意味で、2つの変数が同じスケールにある場合にのみ一致します。これを達成する最も一般的な方法は、@ gungで示されているように、標準化によるものです。

Yi=α+βXi+εi
β^=cor(Yi,Xi)SD(Yi)SD(Xi)
SD(Yi)=SD(Xi)

2つは、ある意味で同じ情報を提供します。それぞれがと間の線形関係の強さを伝えます。しかし、それらはそれぞれ明確な情報を提供します(もちろん、まったく同じ場合を除きます)。XiYi

  • 相関により、2つの変数のスケールとは無関係に解釈できる制限された測定値が得られます。推定された相関がに近いほど、2つは完全な線形関係に近くなります。回帰スロープは、単独では、その情報を伝えません。±1

  • 回帰勾配は、特定の値に対するの期待値の推定変化として解釈される有用な量を提供します。具体的には、は、 1単位の増加に対応するの期待値の変化を示します。この情報は相関係数だけから推定することはできません。YiXiβ^YiXi


この答えの帰結として、yに対するxの回帰は、xに対するyの回帰の逆ではないことに注意してください!
aginensky

23

単純な線形回帰(つまり、1つの共変量のみ)では、両方の変数が最初に標準化された場合、勾配はピアソンのと同じです。(詳細については、ここで私の答え役に立つかもしれません。)重回帰を行っている場合、これはなどのためにより複雑になる可能性があります。β1r


14

相関係数は、測定「圧迫感」二つの変数間の線形関係のおよび包括、-1と1の間に制限されます。ゼロに近い相関は、変数間の線形関連がないことを表しますが、-1または+1に近い相関は強い線形関係を示します。 直観的には、散布図を通して最適な線を描くのが簡単であればあるほど、それらはより相関します。

回帰スロープ対策「急峻」 2つの変数の間の線形関係のはから任意の値を取ることができますに。ゼロに近い勾配は、予測変数(X)が変化するにつれて応答(Y)変数がゆっくりと変化することを意味します。ゼロから遠い(負または正の方向の)勾配は、予測子が変化するにつれて応答がより急速に変化することを意味します。 直観的に、散布図に最適な線を引く場合、それが急であるほど、傾斜はゼロから遠くなります。+ +

したがって、相関係数と回帰スロープは同じ符号(+または-)を持たなければなりませんが、同じ値を持つことはほとんどありません。

簡単にするために、この回答では単純な線形回帰を想定しています。


inf,inf

1

ピアソンの相関係数は無次元であり、入力変数の次元とスケールに関係なく、-1から1の間でスケーリングされます。

(たとえば)質量をグラムまたはキログラムで入力した場合、の値には違いがありませんが、これは勾配/勾配(寸法があり、それに応じてスケーリングされる...同様に、スケールが何らかの方法で調整された場合、代わりにポンドやトンを使用するなど、違いはありません)。rr

簡単なデモンストレーション(Pythonの使用に関するおapび!):

import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]

は、勾配が10倍に増加したにもかかわらず、であることを示しています。r=0.969363

が-1から1の間でスケーリングされるようになるのは、巧妙なトリックだと告白する必要があります(分子の絶対値が分母より大きくなることはありません)。r

@Macroが上記で詳述したように、勾配であるため、ピアソンのは勾配に関連しているが、標準偏差(これにより、寸法とスケールが効果的に復元されます!)b=r(σyσx)r

最初は、式が緩く適合した線(低)が低い勾配をもたらすことを示唆しているように見えるのは奇妙だと思った。次に例をプロットし、勾配を与えて「ゆるみ」を変えると減少するが、これは比例的な増加によって相殺されることに気付きました。rrσy

以下のチャートでは、4つのデータセットがプロットされています。x,y

  1. の結果(勾配、、、)...y=3xb=3r=1σx=2.89σy=8.66σyσx=3
  2. 同じですが、乱数によって変化します、、から、計算できますσ X = 2.89 σ yは = 34.69 、B = 2.94をr=0.2447σx=2.89σy=34.69b=2.94
  3. B = 15 、R = 1 σ X = 0.58 、σ Y = 8.66y=15x(したがっておよび、、)b=15r=1σx=0.58σy=8.66
  4. (2)と同じですが、範囲が縮小されているため、 (および 、、) B = 14.70 、R = 0.2447 σ X = 0.58 、σ Y = 34.69xb=14.70r=0.2447σx=0.58σy=34.69相関と勾配

その分散が影響分かる必ずしも影響を与えずに、及び測定単位は、スケールに影響を及ぼし、したがってでき影響を与えずにb b rrbbr

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.