相関と単純な線形回帰の違いは何ですか?


99

特に、ピアソンの積率相関係数について言及しています。


7
ここでの私の答えから、回帰と相関の関係に関する1つの観点を認識できることに注意してください
GUNG

回答:


114

相関関係の違いは何だとと予測する線形回帰から?XYYX

まず、いくつかの類似点

  • 標準化された回帰係数は、ピアソンの相関係数と同じです
  • ピアソンの相関係数の二乗は、単純な線形回帰のと同じです。R2
  • 単純な線形回帰も相関も因果関係の質問に直接答えません。この点は重要です。なぜなら、単純な回帰によってが引き起こすという推論を魔法のように許可できると思う人に出会ったからです。XY

第二に、いくつかの違い

  • 回帰方程式(すなわち、)を使用して、値に基づいてを予測できます。a+bXYX
  • 通常、相関は線形関係を指しますが、多項式や真の非線形関係など、他の形式の依存関係を指す場合もあります
  • 相関は通常ピアソンの相関係数を指しますが、スピアマンのような他のタイプの相関があります。

こんにちはジェローミー、あなたの説明に感謝しますが、私はまだ質問があります:予測する必要がなく、2つの変数がどれだけ近く、どの方向/強度にあるかを知りたい場合はどうすればよいですか?これらの2つのテクニックを使用してまだ違いはありますか?
yue86231 14年

3
@ yue86231それから、相関の測定がより適切であるように聞こえます。
ジェロミーアングリム14年

5
(+1)の類似することが仮説の標準テストを追加することが有用かもしれないようによって行わとして「相関= 0」または、(いずれかの順序での回帰の)等価的に、「傾き= 0」lmcor.testR、同一のp値が得られます。
whuberの

3
@whuberからの提案を追加することに同意しますが、非常に基本的なレベルでは、回帰スロープの符号と相関係数が等しいことを指摘する価値があると思います。これはおそらく、ほとんどの人が相関関係と「最適な直線」との関係について最初に学ぶことの1つです(まだ「回帰」と呼んでいない場合でも)。違いは、XとYの相関が同じであるか、その逆であるが、X上のYの回帰がY上のXの回帰と異なるという事実も言及する価値があるかもしれません。
シルバーフィッシュ

36

graphpad.comのWebサイト投稿した回答は次のとおりです。

相関と線形回帰は同じではありません。これらの違いを考慮してください。

  • 相関は、2つの変数が関連する度合いを定量化します。相関は、データを通る線に適合しません。
  • 相関を使用すると、原因と結果について考える必要がありません。2つの変数の相互関係を定量化するだけです。回帰では、回帰線がXからYを予測する最良の方法として決定されるため、原因と結果を考慮する必要があります。
  • 相関関係では、2つの変数のどちらを「X」と呼び、どちらを「Y」と呼ぶかは関係ありません。2つを交換すると、同じ相関係数が得られます。線形回帰では、「X」と呼ぶ変数と「Y」と呼ぶ変数の決定が重要になります。2つを入れ替えると、異なる最適なラインが得られるからです。XからYを最適に予測する線は、YからXを予測する線とは異なります(散布のない完全なデータがない場合)。
  • 両方の変数を測定する場合、相関はほとんど常に使用されます。1つの変数が実験的に操作するものである場合は、ほとんど適切ではありません。線形回帰では、X変数は通常、実験的に操作するもの(時間、濃度...)であり、Y変数は測定するものです。

13
「XからYを予測する最良の方法」は、原因と結果とは何の関係もありません。XがYの原因になる可能性があります。原因から結果への推論(推論)または効果から原因への推論(推論)ができます。
ニールG

4
「2つを入れ替えると、別の最適なラインが得られます」は少し誤解を招きます。標準化された勾配は両方の場合で同じです。
ゼノシオン

26

線形回帰の単一予測子の場合、標準化された勾配は相関係数と同じ値を持ちます。線形回帰の利点は、予測変数の特定の値が与えられた場合、予測変数のスコアを(2つの変数間の関係に基づいて)予測できるように関係を記述できることです。特に、線形回帰では、相関関係は切片ではなく、予測変数が0の場合の予測変数の値ではないという情報が得られます。

要するに、それらは同じ結果を計算で生成しますが、単純な線形回帰で解釈できる要素がさらにあります。2つの変数間の関係の大きさを単純に特徴付けることに関心がある場合は、相関を使用します。特定の値に関して結果を予測または説明する場合は、おそらく回帰が必要です。


「特に、線形回帰によって得られる情報の1つは、相関関係が切片ではないことを示しています」...非常に大きな違いです!
SIslam

それを振り返ってみると、回帰がインターセプトを提供するのは、多くの統計パッケージのデフォルトであるためです。切片なしで簡単に回帰を計算できます。
ラッセルピアス

はい、人は簡単インターセプトなし回帰を計算することができますが、それはあまり意味がないだろう: stats.stackexchange.com/questions/102709/...
はKjetil BがHalvorsenの

@kjetilbhalvorsen標準化されたスロープをフィッティングするときに説明した場合を除きます。標準化された回帰式の切片項は常に0です。なぜですか?IVとDVの両方がユニットスコアに標準化されているため、結果としてインターセプトは0になります。回答で記述したケースとまったく同じです。(IVおよびDVの標準化と同等)。IVとDVの両方が0に標準化されている場合、切片は定義上0です
。– russellpierce

11

相関分析は、従属変数と独立変数を無視して、2つの変数間の関係のみを定量化します。ただし、回帰を適用する前に、他の変数で確認する変数の影響を計算する必要があります。


9

これまでに与えられた答えはすべて重要な洞察を提供しますが、一方のパラメーターを他方に変換できることを忘れてはなりません。

回帰:y=mx+b

回帰パラメーターと相関関係、共分散、分散、標準偏差、平均との関係: B= ˉ Y -M ˉ X

m=Cov(y,x)Var(x)=Cor(y,x)Sd(y)Sd(x)
b=y¯mx¯

そのため、パラメータをスケーリングおよびシフトすることにより、両方を相互に変換できます。

Rの例:

y <- c(4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c(4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm(y ~ x)
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      6.5992      -0.3362
(m <- cov(y, x) / var(x)) # slope of regression
## [1] -0.3362361
cor(y, x) * sd(y) / sd(x) # the same with correlation
## [1] -0.3362361
mean(y) - m*mean(x)       # intercept
## [1] 6.599196

3

相関から、2つの変数間の線形関係を記述するインデックスのみを取得できます。回帰では、3つ以上の変数間の関係を予測し、それを使用して結果変数yを予測できる変数xを特定できます。


3

アルトマンDG、「医学研究の実用統計」チャップマン&ホール、1991年、321ページを引用:「相関は、データセットを実際のデータと直接関係のない単一の数値に減らします。回帰は、得られた測定に明確に関連する結果。関係の強さは明示的であり、不確実性は信頼区間または予測区間から明確に見ることができます。


3
私はアルトマンに同情していますが、多くの場合、回帰法は相関よりも適切であることが多いのですが、この引用はストローマンの議論を設定しています。OLS回帰では、生成される情報は相関計算に入力される情報(すべての第1および第2二変量モーメントとそれらの標準誤差)によって提供される情報と同等であり、相関係数は回帰勾配と同じ情報を提供します。2つのアプローチは、想定する基礎となるデータモデルとその解釈が多少異なりますが、Altmanが主張する方法は異なります。
whuberの

1

回帰分析は、2つの変数間の関係の影響の原因を調査する手法です。一方、相関分析は、2つの変数間の関係を定量化する手法です。


6
CVへようこそ!この質問に対する答えはすでにたくさんあるので、それらを見て、新しいものが追加されるかどうかを確認しますか?言いたいことがあれば、編集することができます。
スコルチ

0

相関は、関係の強さのインデックス(1つの数字)です。回帰は、特定の機能的関係の妥当性の分析(モデルのパラメーターの推定とその有意性の統計的検定)です。相関のサイズは、回帰の予測の精度に関連しています。


1
いいえ、ちがいます。相関は境界付きの関係を提供しますが、予測がどれほど正確であるかに関係しません。R2はそれを提供します。
SmallChess

-3

相関とは、2つの間に関係があるかどうかを決定し、次に関係の程度を決定する統計上の用語です。範囲は-1〜+1です。回帰は平均に戻ることを意味します。回帰から、1つの変数を依存し、他の変数を独立させて値を予測しますが、予測する変数の値を明確にする必要があります。


6
こんにちは、@ shakir、Cross Validatedへようこそ!これは古い質問(2010年以降)であり、すでに7つの(!)回答が与えられていることに気づいたでしょう。新しい回答が、これまでに取り上げられていない重要な何かをディスカッションに追加することを確認することをお勧めします。現時点ではそうではありません。
アメーバ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.