xを使用したyとyを使​​用したxの線形回帰の違いは何ですか?


97

xとyのピアソン相関係数は、pearson(x、y)とpearson(y、x)のどちらを計算しても同じです。これは、xが与えられたyまたはyが与えられたxの線形回帰を行うことは同じであるべきであることを示唆していますが、そうではないと思います。

関係が対称ではない場合に誰かが光を当てることができ、それがどのようにピアソン相関係数に関連するのか(私は常にこれを最適なラインを要約すると考えています)?


1
ため、すべての相関行列は対称になります。これが本当に正しいことを確かめるために、数学を解くことをお勧めします。と(または対象となる変数)の関係がアプリオリに対称ではないことがわかっている場合、他の分析方法を調べると役立つ場合があります。 x ycov(x,y)=cov(y,x)xy
フィリップクラウド

14
関連する質問、単純な線形回帰における応答と説明変数の切り替えの影響に関する興味深い点が作成されました。
chl

回答:


159

これについて考える最良の方法は、が垂直軸に、が水平軸で表される点の散布図を想像することです。このフレームワークを考えると、点の雲が見えます。これは漠然と円形であるか、楕円形に伸びている場合があります。回帰でやろうとしていることは、「最適なライン」と呼ばれるものを見つけることです。ただし、これは簡単なように見えますが、「ベスト」とはどういう意味かを理解する必要があります。つまり、あるラインが良い、またはあるラインが別のラインより優れているなどを定義する必要があります。 、損失関数を規定する必要がありますxyx。損失関数は、何かが「悪い」ことを示す方法を提供します。したがって、それを最小化するとき、ラインを可能な限り「良い」にするか、「ベスト」なラインを見つけます。

伝統的に、回帰分析を行うとき、二乗誤差の合計を最小化するために勾配と切片の推定値を見つけます。これらは次のように定義されます。

SSE=i=1N(yi(β^0+β^1xi))2

散布図の観点からは、これは、観測されたデータポイントとライン間の垂直距離(平方の合計)を最小化することを意味します。

ここに画像の説明を入力してください

一方、をに回帰することは完全に合理的ですが、その場合は、垂直軸にを配置するなどです。プロットをそのまま(横軸にを使用)保持した場合、をに回帰する(ここでも、と切り替えた上記の式のわずかに適合したバージョンを使用)とは、水平距離の合計を最小化することを意味しますy x x x y x yxyxxxyxy観測されたデータポイントとラインの間。これは非常に似ていますが、まったく同じものではありません。(これを認識する方法は、両方の方法で行い、パラメータ推定値のセットを代数的に他の項に変換します。最初のモデルを再配置された2番目のモデルと比較すると、それらが簡単にわかります。同じではありません。)

ここに画像の説明を入力してください

どちらの方法でも、誰かがポイントをプロットしたグラフ用紙を渡した場合、直感的に描画するのと同じ線が生成されないことに注意してください。その場合、我々は、直線の中心を通る線を引くことになるが、垂直距離を最小化することがわずかにある線が得られる平坦な水平距離を最小化するわずかな線が得られるのに対し、(すなわち、より浅い傾斜を有する)を急峻に

相関は対称的です。のように相関しているとしてであり。ただし、ピアソンの積率相関は回帰コンテキスト内で理解できます。相関係数は、両方の変数が最初に標準化されたときの回帰直線の勾配です。つまり、最初に各観測値から平均値を減算し、次に標準偏差で差を除算します。データポイントのクラウドは原点を中心とし、をに回帰した場合でもを回帰した場合でも勾配は同じになります。xyyxryxxy (ただし、以下の@DilipSarwateによるコメントに注意してください)。

ここに画像の説明を入力してください

さて、なぜこれが重要なのでしょうか?従来の損失関数を使用して、すべてのエラーは変数の1つ(つまり、)のみにあると言っています。つまり、はエラーなしで測定され、関心のある値のセットを構成するが、はサンプリングエラーがあると言っているyxy。これは、逆の発言とは大きく異なります。これは興味深い歴史的エピソードで重要でした。米国では70年代後半から80年代前半に、職場で女性に対する差別があったというケースが作られ、これは同じ背景を持つ女性を示す回帰分析で裏付けられました(例: 、資格、経験など)は平均して男性よりも少なかった。批評家(または単に非常に徹底した人々)は、これが真実であれば、男性と同等に支払われた女性はより高い資格を持たなければならないだろうと推論しましたが、これをチェックすると、結果は「有意」であったが、 1つの方法を評価しましたが、他の方法でチェックしても「有意」ではありませんでした。こちらをご覧ください 問題を解決しようとした有名な論文のために。


(かなり後で更新されます) 視覚的にではなく式を通してトピックにアプローチする、これについて考える別の方法があります:

単純な回帰直線の勾配の式は、採用された損失関数の結果です。標準の最小二乗損失関数(上記)を使用している場合、すべてのイントロテキストで表示される勾配の式を導出できます。この式はさまざまな形式で表示できます。そのうちの1つは、スロープの「直感的な」式です。あなたが退行している状況の両方のためにこのフォームを検討上に、及びどこに退行している上に: yxxy

β^1=Cov(x,y)Var(x)y on x                              β^1=Cov(y,x)Var(y)x on y
が等しく ない限り、これらが同じではないことは明らかです。分散等しい場合(たとえば、変数を最初に標準化したため)、標準偏差も同じであるため、分散も等しくなり。この場合、はPearsonのに等しくなります。これは、可換性の原理により、どちらの方法でも同じです: Var(x)Var(y)SD(x)SD(y)β^1r
r=Cov(x,y)SD(x)SD(y)correlating x with y                           r=Cov(y,x)SD(y)SD(x)correlating y with x

2
損失関数の最小化について言及する場合は+1。垂直距離または水平距離の代替方法には、直線または長方形の領域への垂直距離の使用が含まれ、それぞれが異なる回帰直線を生成します。
ヘンリー

7
「をに回帰した場合でもを回帰した場合でも勾配は同じになる」とは考えていません。慣例プロットする場合正しい横軸に縦軸に。この場合、勾配は相互の逆数です。横軸に独立変数、縦軸に従属変数の規則に従う場合、はい、どちらの方法でも勾配は同じです。ただし、この規則では、垂直距離と水平距離の説明は適用されません。それは、常にラインからの点の垂直距離。yxxyxy
Dilip Sarwate

4
@DilipSarwate、あなたが言っていることは本当です。「垂直」および「水平」という用語を使用して私のポイントは、エラーとして理解されていることを視覚的に明らかなアイデアにすることであるサンプリングの誤差y、または、エラーをサンプリングx。を垂直軸にプロットし、をに回帰すると、最小化された距離は垂直になりますが、最小化された誤差は依然としてサンプリング誤差になります。私の答えが十分に明確でないかもしれません。もっと良い方法があれば、編集するかもしれません。xxyx
グン

1
相関の場合、ポイントとライン間の直交距離が最小化されていると言えますか?(私は、ポイントから「回帰」ラインに向かい、その上に直交して立っているラインを意味します)。
vonjd

1
ピアソンの相関関係は、@ vonjdという線に完全には適合していません。データが最初に標準化されたとき、それは近似最小二乗線の勾配に等しいことがわかります。最初の主成分は、変数が2つしかなく、データが最初に標準化された場合、直交距離を最小化する近似直線です。HTH
グン

12

答えをいくつかのRコードと出力で説明します。

最初に、y平均が5でSDが1のランダムな正規分布を作成します。

y <- rnorm(1000, mean=5, sd=1)

次に、意図的に2番目のランダム正規分布を作成しますx。これはy、それぞれの値の5倍にすぎませんy

x <- y*5

設計により、との完全な相関関係がxありyます。

cor(x,y)
[1] 1
cor(y,x)
[1] 1

私たちが回帰を行うときしかし、我々は関連機能を探しているxと、yその回帰係数の結果がどの我々が従属変数として使用しており、我々は独立変数として使用するものに依存しています。この場合、ランダムな変動のないx関数を作成したため、インターセプトを近似しませんy

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

そのため、回帰分析はそれとそれを教えてくれますy=0.2xx=5y、これはもちろん同等です。相関係数は、単に間の単位変化レベルでの正確な一致があることを私たちを示しているxとは、y(例えば)で1単位の増加は、そのよう、y常に0.2単位の増加をもたらしますx


6

ピアソンの相関関係は、yに対してxを回帰する場合でも、xに対してyを回帰する場合でも同じであるため、同じ線形回帰が得られるべきであるという洞察。これはほんのわずかな誤りであり、実際に何が起こっているのかを理解するために使用できます。

これは直線の方程式です。これは回帰から得ようとしているものです

ここに画像の説明を入力してください

その線の勾配の方程式は、ピアソンの相関関係によって決まります。

ここに画像の説明を入力してください

これは、ピアソンの相関の方程式です。xをyに対して回帰するのか、yをxに対して回帰するのかは同じです。

ここに画像の説明を入力してください

ただし、傾きの2番目の式を振り返ると、ピアソンの相関だけがその式の唯一の項ではないことがわかります。xに対してyを計算する場合、xのサンプル標準偏差で割ったyのサンプル標準偏差もあります。yに対するxの回帰を計算する場合、これらの2つの項を逆にする必要があります。


4

このような質問では、技術的な問題に簡単に巻き込まれるので、スレッドのタイトルの質問に特に焦点を当てたいと思います:xとyの線形回帰とyのxの線形回帰の違いは何ですか? ?

人的資本理論からの(簡略化された)計量経済モデルを少し考えてみましょう(リンクはノーベル賞受賞者ゲイリー・ベッカーの記事に行きます)。次の形式のモデルを指定するとしましょう: このモデルは、賃金と教育の因果関係として解釈できます。重要なのは、この文脈における因果関係とは、教育から賃金への因果関係の方向を意味し、その逆ではありません。これは、モデルが定式化された方法で暗黙的です。従属変数は賃金であり、独立変数は教育年数です。

wages=b0+b1 years of education+error

ここで、モデルがなるように、計量経済学の方程式を逆にする(つまり、xのyをyのxに変更する)場合 は、計量経済方程式の定式化において、因果関係の方向は賃金から教育に向かっていると言っているということです。

years of education=b0+b1 wages+error

このような例(経済学の領域外でも)をもっと考えられると思いますが、ご覧のように、xのyからyのxへの回帰に切り替えると、モデルの解釈が大きく変わる可能性があります。

だから、答えに質問:xとyの線形回帰とyとxの線形回帰の違いは何ですか?、xでyではなくyでxを回帰すると、回帰方程式の解釈が変わると言えます。健全な解釈を持つモデルは、ほとんど意味をなさないかまったく意味をなさないモデルにすぐに変わる可能性があるため、この点を見落としてはなりません。


3

このトピックには非常に興味深い現象があります。xとyを交換した後、回帰係数は変化しますが、係数のt統計量/ F統計量と有意水準は変化しません。これは、独立変数の1つとyを交換する多重回帰でも当てはまります。

これは、F統計と(部分)相関係数との微妙な関係によるものです。この関係は、線形モデル理論の核心に本当に触れています。この結論についての詳細は、ノートブックにあります。なぜyとxを交換してもpに影響しないのか



2
「なぜyとxを交換してもpに影響がない」という記事はもうありません。再度追加しますか?
JetLag

1

@gungの優れた答えを拡張する:

単純な線形回帰でピアソンの絶対値として見ることができる2つの斜面の幾何平均我々は退行場合、我々が入手上にとにをそれぞれ、: を使用し て、直接取得できます。 または ryxxy

β^1yonxβ^1xony=Cov(x,y)Var(x)Cov(y,x)Var(y)=|Cov(x,y)|SD(x)SD(y)=|r|
r
r=sign(β^1yonx)β^1yonxβ^1xony
r=sign(β^1xony)β^1yonxβ^1xony

興味深いことに、AM–GMの不等式により、2つの勾配係数の算術平均の絶対値は、ピアソンの絶対値より大きい(または等しい)ことになります。 r

|12(β^1yonx+β^1xony)|β^1yonxβ^1xony=|r|


1

2つの異なる最適化問題を解決しているため、関係は対称ではありません。ことは、次の問題を解くと書くことができます:  Doing regression of y given x

minbE(YbX)2

一方、: 、次のように書き換えることができます。doing regression of x given y

minbE(XbY)2

minb1b2E(YbX)2

また、2つの外観の異なる問題が同じ解決策を持っている可能性があることに注意することも重要です。


1
これは正しいことですが、これらの観察に感謝しますが、読者にはうんざりさせておいてください。これら2つの異なる見た目の問題の解決策が必ずしも異なる理由を説明してください。
whuber

1
あなたは正しいです。実は私はこの2つの問題を作ってみました理由です、それについて考えたが、2つの解決策は必ずしも異なっている理由を説明するための簡単な(そしてあまり数学的な)方法を見つけることができませんでしたできるだけ同じ。ここでは、異なる視点を提供しようとしています。look
SiXUlm

最後の行はどのように中央の行と同等ですか?1 / b ^ 2を掛けると、E(X-Yb)^ 2ではなくE(X-Y / b)^ 2が得られます
Austin Shin

@AustinShin実際に私はここで少しごまかしました。真ん中の行でを取り出し、変数を変更します:、それから最後の行が表示されます。b = 1 / bbb:=1/b
SiXUlm

+1:あなたは今あなたの主張を明確にした!
whuber

0

さて、単純な2変量回帰では、線形相関係数とR-2乗が両方の方程式で同じになるのは事実です。ただし、勾配はr Sy / Sxまたはr Sx / Syになり、r = 1でない限り、相互の逆数ではありません。


1
「...または」...または簡潔にするため、「...ない限り」r 2 = 11r2=1
-Glen_b

-7

回帰の基本的な考え方は、「原因と影響」または「独立と依存」です。X軸に独立変数を、Y軸に従属変数を配置する通常の慣行は、Y = mX + cで表されます。勾配をm(YでX)または(XでY)として呼び出し、回帰を(YでX)または(XでY)として呼び出すかどうか。両方の方法で処理されますが、これは良くないため、明確にする必要があります。モデラーは散布図を頻繁に使用して、シミュレートされたシリーズが観察されたシリーズと一致するかどうかを判断します。回帰線の使用は避けられません。ここには原因節はありません。この必要性に応じて、スレッドによって提示されたミュートの質問が成り立ちます。または、簡単に言えば、通常の回帰分析の呼び出し方法を明確にしてください。またはXでY ?、原因となる答えを超えて。これはメインスレッドへの答えではありません。しかし、並行した質問です。


6
-1インコヒーレントであることに加え、この答えはとても巧みに最良の答えで説明キー考え省略:データの変化の確率モデルを回帰が有意義であり、変数が従属変数と考えることができるかを決定するかどうかを決定します。
whuber

この回答者は、慣例的なラベリングの観点から、明らかに不明確なタイトルの質問の1つの解釈を繰り返している可能性があります。y = mx + bという形式の問題の場合、通常、関係は「yはxで回帰」(yes)または「xはyで回帰」(no)として記述されますか?用語の質問はstats.stackexchange.com/questions/207425/…で回答されています
-InColorado
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.