多重相関係数


24

Iは、複数の相関の幾何学的な意味に興味R決意するのと係数R2回帰におけるyi=β1+β2x2,i++βkxk,i+ϵi、またはベクトル表記で、

y=Xβ+ϵ

ここで、設計行列X有するn行およびk列を、そのうちの最初のものであるx1=1n、切片に相当するが、その1Sのベクトルβ1

ジオメトリは、k次元の可変空間ではなく、n次元の対象空間でより興味深いものです。帽子行列を定義します。k

H=X(XX)1X

これは、の列空間への正射影ですX。つまり、各変数x iを表すk個のベクトルが 広がる原点を通る平面です。その最初は1 nです。次いで、Hは観測された応答のベクトル突出Yを平坦にその「影」に、近似値のベクトルY = H yは、と我々は残差のベクトルを参照投影経路に沿って見た場合に、E = yと- ykxi1nHyy^=Hye=yy^三角形の3番目の辺を形成します。これにより、幾何学的な解釈への2つのルートが提供されR2ます。

  1. 複数の相関係数の二乗Rとの間の相関として定義され、yおよびY。これは、角度の余弦として幾何学的に表示されます。y^
  2. ベクトルの長さの点で:例えば、SSresidual=i=1nei2=e2

私は次のことを説明する簡単なアカウントを見て喜んでいるでしょう。

  • (1)および(2)の詳細
  • (1)と(2)が同等である理由、
  • 簡単に言えば、幾何学的な洞察によって基本的なプロパティを視覚化する方法、たとえば、ノイズ分散が0になったときに1になる理由などです(結局、視覚化から直観できない場合は、画像。)R2

変数が最初に中央に配置され、質問からインターセプトが削除される場合、これはより簡単です。ただし、重回帰を導入するほとんどの教科書の記述では、設計マトリックスは私がレイアウトしたとおりです。もちろん、博覧会が中心の変数にまたがる空間を掘り下げても大丈夫ですが、教科書の線形代数の洞察のために、これを中心から外れた状況で幾何学的に起こっていることと関連づけることは非常に役立ちます。本当に洞察に満ちた答えは説明するかもしれない、正確に幾何学的に破壊しているもの切片項がドロップされたとき -つまり際のベクトル1のnX1nスパニングセットから削除されます。この最後の点は、中心変数のみを考慮することで対処できるとは思いません。

回答:


47

モデルの定数項が存在する場合、の列空間にあるX(そうであるようˉ Y 1 N後で有用に来ます)。フィットYは観察さの正射影であるYその列空間によって形成された平坦な上。この手段残差のベクトルE = Y - yはフラットに垂直であり、したがってに1個のN。内積を考慮すると、n i = 1 e i = 0であることがわかるので、1nXY¯1nY^Ye=yy^1ni=1nei=0は合計がゼロでなければなりません。以来、 Y iが = ^ Y I + E iが、我々は、と結論 Σ N iは= 1 Yをiが = Σ N iは= 1 ^ Yをiは両嵌合観測された応答は、平均有すること ˉ YをeYi=Yi^+eii=1nYi=i=1nYi^Y¯

重回帰の対象空間のベクトル

図中の破線は表し及びY - ˉ Y 1 、Nであり、中心に観察し、フィット応答のベクター。角度の余弦θこれらのベクトルの間の故の相関になりY及びYの定義により、複数の相関係数である、R。これらのベクターは、残差のベクトルと三角形を形成するので直角れるY - ˉ Y 1 Nフラットにあるものの YY¯1nY^Y¯1nθYY^RY^Y¯1nはそれに直交します。したがって:e

R=cos(θ)=adjhyp=Y^Y¯1nYY¯1n

ピタゴラスを三角形に適用することもできます。

YY¯1n2=YY^2+Y^Y¯1n2

これは次のようによく知られています:

i=1n(YiY¯)2=i=1n(YiY^i)2+i=1n(Y^iY¯)2

これは二乗和の分解、です。SStotal=SSresidual+SSregression

決定係数の標準定義は次のとおりです。

R2=1SSresidualSStotal=1i=1n(yiy^i)2i=1n(yiy¯)2=1YY^2YY¯1n2

When the sums of squares can be partitioned, it takes some straightforward algebra to show this is equivalent to the "proportion of variance explained" formulation,

R2=SSregressionSStotal=i=1n(y^iy¯)2i=1n(yiy¯)2=Y^Y¯1n2YY¯1n2

There is a geometric way of seeing this from the triangle, with minimal algebra. The definitional formula gives R2=1sin2(θ) and with basic trigonometry we can simplify this to cos2(θ). This is the link between R2 and R.

Note how vital it was for this analysis to have fitted an intercept term, so that 1n was in the column space. Without this, the residuals would not have summed to zero, and the mean of the fitted values would not have coincided with the mean of Y. In that case we couldn't have drawn the triangle; the sums of squares would not have decomposed in a Pythagorean manner; R2 would not have had the frequently-quoted form SSreg/SStotal nor be the square of R. In this situation, some software (including R) uses a different formula for R2 altogether.


1
+1 Very nice write-up and figure. I am surprised that it only has my single lonely upvote.
amoeba says Reinstate Monica

2
+1. Note that the figure of your answer, with "column space X", Y, Ypred as vectors etc. is what is known in multivariate statistics as "(reduced) subject space representation" (see, with further links where I've used it).
ttnphns
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.