回帰係数を計算するとき、説明変数の順序は重要ですか?


24

最初は順序は関係ないと思っていましたが、重回帰係数を計算するためのグラムシュミットの直交化プロセスについて読みましたが、今は考え直しています。

gram-schmidtプロセスによれば、説明変数が他の変数の中で後でインデックス付けされると、その前の変数の残差ベクトルが減算されるため、その残差ベクトルは小さくなります。その結果、説明変数の回帰係数も小さくなります。

それが本当である場合、問題の変数の残差ベクトルは、より少ない残差ベクトルが減算されるため、より早くインデックス付けされた場合、より大きくなります。これは、回帰係数も大きくなることを意味します。

わかりましたので、質問を明確にするように求められました。だから私は最初に私を混乱させたテキストからスクリーンショットを投稿しました。はい、ここに行きます。

私の理解では、回帰係数を計算するには少なくとも 2つのオプションがあります。最初のオプションは、下のスクリーンショットで(3.6)と示されています。

最初の方法

次に、2番目のオプションを示します(複数のスクリーンショットを使用する必要がありました)。

第二の方法

ここに画像の説明を入力してください ここに画像の説明を入力してください

私が何かを誤解していない限り(これは間違いなく可能です)、2番目のオプションでは順序が重要なようです。最初のオプションでは重要ですか?なぜですか?または、私の参照フレームがめちゃくちゃになっていて、これが有効な質問でさえないのですか?また、これは何らかの形で平方Iの合計とタイプIIの平方和に関連していますか?

事前に感謝します、私はとても混乱しています!


1
係数の計算方法を正確に説明してください。グラムシュミットの直交化について知っていることと、それを回帰問題に適用する方法から、gsプロシージャを使用することで、元の係数ではなく回帰の適合性を得ることができると推測できます。回帰適合は列の空間への投影であることに注意してください。列を直交化すると、列にまたがる空間の直交基底が得られるため、適合はこの基底の線形結合と元の列の線形結合になります。それは同じになります
...-mpiktas

しかし、係数は異なります。これは完全に正常です。
mpiktas

「統計学習の要素」で、グラムシュミットプロセスを使用して計算された係数は、従来のプロセスを使用して計算された係数と同じであると思ったため、混乱していると思います:B =(X'X)^- 1 X'y。
ライアンゾッティ

手順について説明している本からの抜粋は次のとおりです。「単純な回帰の2つのアプリケーションの結果として、[係数の]推定値を表示できます。ステップは次のとおりです。 x − x̄1; 2.残差zでyを回帰して係数βˆ1を与えるこのレシピは、アルゴリズム3.1に示すように、p入力の場合に一般化されます。ステップz0、…、zj-1の入力2は直交しているため、そこで計算される単純な回帰係数は、実際には多重回帰係数でもあります。
ライアンゾッティ

コピーしてここのコメントセクションに貼り付けると少し面倒になるので、おそらくソースを直接見るのが最善です。スタンフォードのウェブサイトwww-stat.stanford.edu/~tibs/ElemStatLearnから無料でダウンロードできる「統計学習の要素」の53〜54ページです。
ライアンゾッティ

回答:


22

混乱はもう少し単純なものから生じているのではないかと思いますが、いくつかの関連事項を検討する良い機会を提供します。

テキストがあることに注意していないと主張し、すべての回帰係数のは、β iのよう連続した残差ベクトルを経由して計算することができ β I =YZ Iβ^i むしろことを最後の 1、 β pは、この方法で計算することができます!

β^i=?y,zizi2,
β^p

連続直交化スキーム(グラム-シュミット直交化の形式)は、(ほぼ)X = Z Gのような 行列Gのペアを生成します。ZG ここで、 Zは、であり、N × P正規直交列とを有する G = G 、I 、Jである P × P上三角。アルゴリズムは Zを列のノルムまで指定するだけなので、これは一般に1ではありませんが、列を正規化し、座標行列に対応する簡単な調整を行うことで単位ノルムにすることができます。 G

X=ZG,
Zn×pG=(gij)p×pZG

ことは、当然のことながら、仮定ランク有するPをN、ユニークな最小二乗解は、ベクトルであるβシステム解き X T X β = X T YをXRn×ppnβ^

XTXβ^=XTy.

代入および使用Z T Z = I(構成によって)、我々 GET G T G β = G T Z T YX=ZGZTZ=I に相当する G β = Z T Y

GTGβ^=GTZTy,
Gβ^=ZTy.

次に、線形システムの最後の行に集中します。最後の行のゼロ以外の要素はg p pのみです。そこで、我々が得ること グラムP 、P β、P = のyzの PGgpp

gppβ^p=y,zp.
gpp=zpzi

見つけるには β^i(p1)

gp1,p1β^p1+gp1,pβ^p=zp1,y,
β^p1=gp1,p11zp1,ygp1,p11gp1,pβ^p.
giiβ^i

XX(r)rβ^rβ^ryxr

一般的なQR分解

X

X=QR,
Xβ^
RTRβ^=RTQTy,
Rβ^=QTy.
Rβ^p

Xy^


6

βjβp

ESLの演習3.4

X

溶液

X

X=ZΓ,
ZzjΓγij=zi,xjzi2
xj=zj+k=0j1γkjzk.

QRX=QRQRQ=ZD1R=DΓDDjj=zj

β^

(XTX)β^=XTy.
QR
(RTQT)(QR)β^=RTQTyRβ^=QTy

R

Rppβ^p=qp,yzpβ^p=zp1zp,yβ^p=zp,yzp2
β^jβ^p1
Rp1,p1β^p1+Rp1,pβ^p=qp1,yzp1β^p1+zp1γp1,pβ^p=zp11zp1,y
β^p1βj

3

試して比較してみませんか?回帰係数のセットを近似し、順序を変更して再度近似し、それらが異なるかどうかを確認します(可能な丸め誤差以外)。

@mpiktasが指摘しているように、あなたが何をしているのかは明確ではありません。

私はGSを使って解決するのを見ることができます B 最小二乗方程式で バツバツB=バツy。しかし、その後、あなたは上のGSを行うことになりますバツバツ元のデータではなく行列。この場合、係数は同じである必要があります(可能な丸め誤差以外)。

Another approach of GS in regression is to apply GS to the predictor variables to eliminate colinearity between them. Then the orthogonalized variables are used as the predictors. In this case order matters and the coefficients will be different because the interpretation of the coefficients depends on the order. Consider 2 predictors x1 and x2 and do GS on them in that order then use as predictors. In that case the first coefficient (after the intercept) shows the effect of x1 on y by itself and the second coefficient is the effect of x2 on y after adjusting for x1. Now if you reverse the order of the x's then the first coefficient shows the effect of x2 on y by itself (ignoring x1 rather than adjusting for it) and the second is the effect of x1 adjusting for x2.


I think your last paragraph is probably closest to the source of my confusion -- GS does make the order matter. That's what I thought. I'm still a bit confused, though, because the book I'm reading, called: "The Elements of Statistical Learning" (a Stanford publication that's freely available: www-stat.stanford.edu/~tibs/ElemStatLearn) seems to suggest that GS is equivalent to the standard approach for calculating the coefficients; that is, B = (X'X)^-1 X'y.
Ryan Zotti

And part of what you say confuses me a bit too: "I can see using GS to solve for B in the least squares equation (x′x)^−1 B=(x′y). But then you would be doing the GS on the (x′x) matrix, not the original data." I thought the x'x matrix contained the original data?... At least that's what Elements of Statistical Learning says. It says the x in the x'x is an N by p matrix where N is the number of inputs (observations) and p is the number of dimensions.
Ryan Zotti

If GS is not the standard procedure for calculating the coefficients, then how is collinearity typically treated? How is redundancy (collinearity) typically distributed among the x's? Doesn't collinearity traditionally make the coefficients unstable? Then wouldn't that suggest that the GS process is the standard process? Because the GS process also makes the coefficients unstable -- a smaller residual vector makes the coefficient unstable.
Ryan Zotti

At least that's what the text says, "If xp is highly correlated with some of the other xk’s, the residual vector zp will be close to zero, and from (3.28) the coefficient βˆp will be very unstable."
Ryan Zotti

2
Note that GS is a form of QR decomposition.
cardinal
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.