単純な線形回帰のサンプル相関とR統計の同等性


10

サンプル相関乗は、単純な線形回帰の決定係数に等しいとよく言われます。私はこれを自分で示すことができなかったので、この事実の完全な証拠に感謝します。R 2r2R2


1
これが自習用の質問である場合は、適切なタグを追加してください。
アンディ

この質問は、なぜかを尋ねます。R2=r2
Silverfish 2015年

回答:


8

表記に多少のばらつきがあるようです。単純な線形回帰では、観測された値と値の間の相関への参照として記号した「サンプル相関係数」というフレーズを通常見ました。これは、私がこの回答に採用した表記です。また、観測されたと適合された間の相関関係を参照するために使用される同じ句と記号も見ました。私の回答では、これを「多重相関係数」と呼び、記号を使用しました。この回答では、決定係数がの2乗との2 乗の両方である理由を説明しますxは、Y のy yと R R Rrxyyy^RrRなので、どの使用法が意図されているかは問題ではありません。

相関関係との意味についていくつかの簡単な事実たら結果は代数の1行目に次のあなたが箱入り式までスキップすることを好むかもしれので、確立されています。特に、共分散と分散の基本的な特性を証明する必要がないと思います。 Rr2R

Var a X + b = a 2 Var X

Cov(aX+b,Y)=aCov(X,Y)
Var(aX+b)=a2Var(X)

共分散が対称であり、ことがわかったら、後者は前者から導出できることに注意してください。ここから、相関についての別の基本的な事実を導き出します。以下のための、および限りと非ゼロの分散を持って、a 0 X YVar(X)=Cov(X,X)a0XY

Cor(aX+b,Y)=Cov(aX+b,Y)Var(aX+b)Var(Y)=aa2×Cov(X,Y)Var(X)Var(Y)Cor(aX+b,Y)=sgn(a)Cor(X,Y)

ここで、はsignumまたはsign関数です。その値は、場合および場合です。また場合ですが、その場合は関係ありませんは定数なので、 in分母と相関関係を計算することはできません。対称引数により、この結果を一般化させます:sgn a = + 1 a > 0 sgn a = 1 a < 0 sgn a = 0 a = 0 a X + b Var a X + b = 0 a sgn(a)sgn(a)=+1a>0sgn(a)=1a<0sgn(a)=0a=0aX+bVar(aX+b)=0a,c0

Cor(aX+b,cY+d)=sgn(a)sgn(c)Cor(X,Y)

現在の質問に答えるためにこのより一般的な式は必要ありませんが、状況の形状を強調するためにこれを含めます:変数がスケーリングまたは変換されたときに相関は変更されないが、変数が反映。

もう1つ事実が必要です。定数項を含む線形モデルの場合、決定係数は多重相関係数乗です。これは、観測された応答とモデルの近似値間の相関です。これは、重回帰と単純回帰の両方に当てはまりますが、単純な線形モデル注意を向けましょう。結果は、がスケーリングされた、場合によっては反映され、変換されたバージョンであるという観察結果に従います。R2RYY^Y^=β^0+β^1XY^X

R=Cor(Y^,Y)=Cor(β^0+β^1X,Y)=sgn(β^1)Cor(X,Y)=sgn(β^1)r

したがって、場合、符号は推定勾配の符号と一致し、が負にならないことが保証されます。明らかにです。R=±rRR2=r2

二乗和を考慮する必要がないため、前述の議論はより簡単になりました。これを達成するために、私はとの関係を詳細にスキップ、我々は通常、二乗和の観点から考えると、我々はフィットと観測された応答の相関関係について考えているために、。記号は関係トートロジーのように見せますが、そうではなく、モデルに切片項がない場合、関係は壊れます!別の質問から得られた関係についての幾何学的な議論の簡単なスケッチを示します。ダイアグラムは次元の対象空間に描画されますR2RR2=(R)2RR2nなので、各軸(図示せず)は1つの観測単位を表し、変数はベクトルとして表示されます。計画行列の列は、ベクトル(定数項の場合)と説明変数の観測値のベクトルであるため、列空間は2次元フラットです。X1n

重回帰の件名空間のベクトル

当てはめられたは、列空間への観測されたの正射影です。これは、残差のベクトルがフラットに対して垂直であるため、に対して垂直であることを。内積はです。残差の合計がゼロになり、ため、なるため、応答と観測応答の両方がを意味し。図の破線、およびY^YXe=yy^1n0=1ne=i=1neiYi=Yi^+eii=1nYi=i=1nYi^Y¯YY¯1nY^Y¯1n、したがって、観測および適合された応答の中心ベクトルであり、それらの間の角度余弦は、それらの相関です。θR

はフラットにあるが はそれに直交しているため、これらのベクトルが残差のベクトルとともに形成する三角形は直角です。ピタゴラスの適用:Y^Y¯1ne

YY¯1n2=YY^2+Y^Y¯1n2

これは、平方和の分解、です。決定係数の従来の式はで、この三角形ではは確かにの2乗です。式方がおなじみかもしれませんが、すぐにが得られますが、はより一般的であり、(今見たように)減少しSStotal=SSresidual+SSregression1SSresidualSStotal1sin2θ=cos2θRR2=SSregressionSStotalcos2θ1SSresidualSStotalSSregressionSStotal 定数項がモデルに含まれている場合


素敵な数学とグラフを作成するための努力に+1感謝します!!
Haitao Du

4

ように定義される 二乗サンプル相関係数: は、次を使用して簡単に確認できるため、同等です: (Verbeek、§2.4を参照)R2

R2=V^(y^i)V^(yi)=1/(N1)i=1N(y^iy¯)21/(N1)i=1N(yiy¯)2=ESSTSS
VYI=V Y I+VEは
r2(yi,y^i)=(i=1N(yiy¯)(y^iy¯))2(i=1N(yiy¯)2)(i=1N(y^iy¯)2)
V^(yi)=V^(y^i)+V^(ei)

詳細をもう少し追加してください。私はこれを証明しようとしましたが、成功しませんでした...
海の老人。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.