xとyのピアソン相関係数は、pearson(x、y)とpearson(y、x)のどちらを計算しても同じです。これは、xが与えられたyまたはyが与えられたxの線形回帰を行うことは同じであるべきであることを示唆していますが、そうではないと思います。
関係が対称ではない場合に誰かが光を当てることができ、それがどのようにピアソン相関係数に関連するのか(私は常にこれを最適なラインを要約すると考えています)?
xとyのピアソン相関係数は、pearson(x、y)とpearson(y、x)のどちらを計算しても同じです。これは、xが与えられたyまたはyが与えられたxの線形回帰を行うことは同じであるべきであることを示唆していますが、そうではないと思います。
関係が対称ではない場合に誰かが光を当てることができ、それがどのようにピアソン相関係数に関連するのか(私は常にこれを最適なラインを要約すると考えています)?
回答:
これについて考える最良の方法は、が垂直軸に、が水平軸で表される点の散布図を想像することです。このフレームワークを考えると、点の雲が見えます。これは漠然と円形であるか、楕円形に伸びている場合があります。回帰でやろうとしていることは、「最適なライン」と呼ばれるものを見つけることです。ただし、これは簡単なように見えますが、「ベスト」とはどういう意味かを理解する必要があります。つまり、あるラインが良い、またはあるラインが別のラインより優れているなどを定義する必要があります。 、損失関数を規定する必要がありますx。損失関数は、何かが「悪い」ことを示す方法を提供します。したがって、それを最小化するとき、ラインを可能な限り「良い」にするか、「ベスト」なラインを見つけます。
伝統的に、回帰分析を行うとき、二乗誤差の合計を最小化するために勾配と切片の推定値を見つけます。これらは次のように定義されます。
散布図の観点からは、これは、観測されたデータポイントとライン間の垂直距離(平方の合計)を最小化することを意味します。
一方、をに回帰することは完全に合理的ですが、その場合は、垂直軸にを配置するなどです。プロットをそのまま(横軸にを使用)保持した場合、をに回帰する(ここでも、と切り替えた上記の式のわずかに適合したバージョンを使用)とは、水平距離の合計を最小化することを意味しますy x x x y x y観測されたデータポイントとラインの間。これは非常に似ていますが、まったく同じものではありません。(これを認識する方法は、両方の方法で行い、パラメータ推定値のセットを代数的に他の項に変換します。最初のモデルを再配置された2番目のモデルと比較すると、それらが簡単にわかります。同じではありません。)
どちらの方法でも、誰かがポイントをプロットしたグラフ用紙を渡した場合、直感的に描画するのと同じ線が生成されないことに注意してください。その場合、我々は、直線の中心を通る線を引くことになるが、垂直距離を最小化することがわずかにある線が得られる平坦な水平距離を最小化するわずかな線が得られるのに対し、(すなわち、より浅い傾斜を有する)を急峻に。
相関は対称的です。のように相関しているとしてであり。ただし、ピアソンの積率相関は回帰コンテキスト内で理解できます。相関係数は、両方の変数が最初に標準化されたときの回帰直線の勾配です。つまり、最初に各観測値から平均値を減算し、次に標準偏差で差を除算します。データポイントのクラウドは原点を中心とし、をに回帰した場合でもを回帰した場合でも勾配は同じになります。 (ただし、以下の@DilipSarwateによるコメントに注意してください)。
さて、なぜこれが重要なのでしょうか?従来の損失関数を使用して、すべてのエラーは変数の1つ(つまり、)のみにあると言っています。つまり、はエラーなしで測定され、関心のある値のセットを構成するが、はサンプリングエラーがあると言っている。これは、逆の発言とは大きく異なります。これは興味深い歴史的エピソードで重要でした。米国では70年代後半から80年代前半に、職場で女性に対する差別があったというケースが作られ、これは同じ背景を持つ女性を示す回帰分析で裏付けられました(例: 、資格、経験など)は平均して男性よりも少なかった。批評家(または単に非常に徹底した人々)は、これが真実であれば、男性と同等に支払われた女性はより高い資格を持たなければならないだろうと推論しましたが、これをチェックすると、結果は「有意」であったが、 1つの方法を評価しましたが、他の方法でチェックしても「有意」ではありませんでした。こちらをご覧ください 問題を解決しようとした有名な論文のために。
(かなり後で更新されます) 視覚的にではなく式を通してトピックにアプローチする、これについて考える別の方法があります:
単純な回帰直線の勾配の式は、採用された損失関数の結果です。標準の最小二乗損失関数(上記)を使用している場合、すべてのイントロテキストで表示される勾配の式を導出できます。この式はさまざまな形式で表示できます。そのうちの1つは、スロープの「直感的な」式です。あなたが退行している状況の両方のためにこのフォームを検討上に、及びどこに退行している上に:
答えをいくつかのR
コードと出力で説明します。
最初に、y
平均が5でSDが1のランダムな正規分布を作成します。
y <- rnorm(1000, mean=5, sd=1)
次に、意図的に2番目のランダム正規分布を作成しますx
。これはy
、それぞれの値の5倍にすぎませんy
。
x <- y*5
設計により、との完全な相関関係がx
ありy
ます。
cor(x,y)
[1] 1
cor(y,x)
[1] 1
私たちが回帰を行うときしかし、我々は関連機能を探しているx
と、y
その回帰係数の結果がどの我々が従属変数として使用しており、我々は独立変数として使用するものに依存しています。この場合、ランダムな変動のないx
関数を作成したため、インターセプトを近似しませんy
。
lm(y~x-1)
Call:
lm(formula = y ~ x - 1)
Coefficients:
x
0.2
lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)
Coefficients:
y
5
そのため、回帰分析はそれとそれを教えてくれますy=0.2x
がx=5y
、これはもちろん同等です。相関係数は、単に間の単位変化レベルでの正確な一致があることを私たちを示しているx
とは、y
(例えば)で1単位の増加は、そのよう、y
常に0.2単位の増加をもたらしますx
。
ピアソンの相関関係は、yに対してxを回帰する場合でも、xに対してyを回帰する場合でも同じであるため、同じ線形回帰が得られるべきであるという洞察。これはほんのわずかな誤りであり、実際に何が起こっているのかを理解するために使用できます。
これは直線の方程式です。これは回帰から得ようとしているものです
その線の勾配の方程式は、ピアソンの相関関係によって決まります。
これは、ピアソンの相関の方程式です。xをyに対して回帰するのか、yをxに対して回帰するのかは同じです。
ただし、傾きの2番目の式を振り返ると、ピアソンの相関だけがその式の唯一の項ではないことがわかります。xに対してyを計算する場合、xのサンプル標準偏差で割ったyのサンプル標準偏差もあります。yに対するxの回帰を計算する場合、これらの2つの項を逆にする必要があります。
このような質問では、技術的な問題に簡単に巻き込まれるので、スレッドのタイトルの質問に特に焦点を当てたいと思います:xとyの線形回帰とyのxの線形回帰の違いは何ですか? ?
人的資本理論からの(簡略化された)計量経済モデルを少し考えてみましょう(リンクはノーベル賞受賞者ゲイリー・ベッカーの記事に行きます)。次の形式のモデルを指定するとしましょう: このモデルは、賃金と教育の因果関係として解釈できます。重要なのは、この文脈における因果関係とは、教育から賃金への因果関係の方向を意味し、その逆ではありません。これは、モデルが定式化された方法で暗黙的です。従属変数は賃金であり、独立変数は教育年数です。
ここで、モデルがなるように、計量経済学の方程式を逆にする(つまり、xのyをyのxに変更する)場合 は、計量経済方程式の定式化において、因果関係の方向は賃金から教育に向かっていると言っているということです。
このような例(経済学の領域外でも)をもっと考えられると思いますが、ご覧のように、xのyからyのxへの回帰に切り替えると、モデルの解釈が大きく変わる可能性があります。
だから、答えに質問:xとyの線形回帰とyとxの線形回帰の違いは何ですか?、xでyではなくyでxを回帰すると、回帰方程式の解釈が変わると言えます。健全な解釈を持つモデルは、ほとんど意味をなさないかまったく意味をなさないモデルにすぐに変わる可能性があるため、この点を見落としてはなりません。
このトピックには非常に興味深い現象があります。xとyを交換した後、回帰係数は変化しますが、係数のt統計量/ F統計量と有意水準は変化しません。これは、独立変数の1つとyを交換する多重回帰でも当てはまります。
これは、F統計と(部分)相関係数との微妙な関係によるものです。この関係は、線形モデル理論の核心に本当に触れています。この結論についての詳細は、ノートブックにあります。なぜyとxを交換してもpに影響しないのか
@gungの優れた答えを拡張する:
単純な線形回帰でピアソンの絶対値として見ることができる2つの斜面の幾何平均我々は退行場合、我々が入手上にとにをそれぞれ、:
を使用し
て、直接取得できます。
または
興味深いことに、AM–GMの不等式により、2つの勾配係数の算術平均の絶対値は、ピアソンの絶対値より大きい(または等しい)ことになります。
2つの異なる最適化問題を解決しているため、関係は対称ではありません。ことは、次の問題を解くと書くことができます:
一方、:
、次のように書き換えることができます。
また、2つの外観の異なる問題が同じ解決策を持っている可能性があることに注意することも重要です。
さて、単純な2変量回帰では、線形相関係数とR-2乗が両方の方程式で同じになるのは事実です。ただし、勾配はr Sy / Sxまたはr Sx / Syになり、r = 1でない限り、相互の逆数ではありません。
回帰の基本的な考え方は、「原因と影響」または「独立と依存」です。X軸に独立変数を、Y軸に従属変数を配置する通常の慣行は、Y = mX + cで表されます。勾配をm(YでX)または(XでY)として呼び出し、回帰を(YでX)または(XでY)として呼び出すかどうか。両方の方法で処理されますが、これは良くないため、明確にする必要があります。モデラーは散布図を頻繁に使用して、シミュレートされたシリーズが観察されたシリーズと一致するかどうかを判断します。回帰線の使用は避けられません。ここには原因節はありません。この必要性に応じて、スレッドによって提示されたミュートの質問が成り立ちます。または、簡単に言えば、通常の回帰分析の呼び出し方法を明確にしてください。またはXでY ?、原因となる答えを超えて。これはメインスレッドへの答えではありません。しかし、並行した質問です。