LOOCV式の証明


18

統計学習の入門ジェームスら。、リーブワンアウトクロスバリデーション(LOOCV)推定値はによって定義される

CV(n)=1ni=1nMSEi
ここMSEi=(yiy^i)2

証明がなければ、方程式(5.2)には、最小二乗回帰または多項式回帰(これが1つの変数のみの回帰に当てはまるかどうかは不明)、 "ここで、Yiがされている私は、元の最小二乗から番目のフィット値(適合しないこの手段が、方法によって何全く考え、それが使用を意味し、すべてのデータセット内のポイントを)および?Hiがにより定義されるてこ」でHiは=1

CV(n)=1ni=1n(yiy^i1hi)2
y^iihi
hi=1n+(xix¯)2j=1n(xjx¯)2.

これをどのように証明しますか?

私の試み:一つは、その注目して開始することができ、Y I = β 0 + k個のΣ iは= 1 β K X K + 程度の一部多項式の項  2 が、これとは別に(私は思い出す場合、ための、式hはiが唯一であると単純な線形回帰の場合...)、ここから先に進む方法がわかりません。

y^i=β0+i=1kβkXk+some polynomial terms of degree 2
hi

あなたの方程式が複数のことにを使用しているように見えるか、非常に混乱しています。いずれにせよ、追加の明快さは良いでしょう。i
Glen_b -Reinstate Monica

@Glen_b昨日LOOCVについて学んだので、いくつかのことを正しく理解できないかもしれません。私が理解からは、あなたがデータポイントのセットを持っている、と言う。LOOCVを使用すると、固定(正の整数)kごとに検証セットV k = { x ky k}とテストセットT k = XV kがあり、それぞれに対して近似モデルを生成します。X={(xi,yi):iZ+}kVk={(xk,yk)}Tk=XVkます。たとえば、3つのデータポイントを使用した単純な線形回帰を使用してモデルを近似するとします。k。私たちは(継続する)X={(0,1),(1,2),(2,3)}
クラリネット奏者

@Glen_b およびT 1 = { 1 2 2 3 }。でポイントを使用してT 1、我々は単純な線形回帰を使用して、我々はモデルを得ることを見つけることができ、Y I = X + 1。その後、我々は計算MSEを使用してV 1を検証セットとして取得し、Y 1 = 1V1={(0,1)}T1={(1,2),(2,3)}T1y^i=X+1MSEV1y1=1(単に所与の点を使用)、Y、与えMSE 1 = 0。さて、上付き文字を使用することは最良のアイデアではなかったかもしれません。元の投稿でこれを変更します。y^1(1)=0+1=1MSE1=0
クラリネット奏者

ここにいくつかの講義ノートは、導出にあるpages.iu.edu/~dajmcdon/teaching/2014spring/s682/lectures/...
ザビエル・ブーレSicotte

回答:


17

回帰変数が多項式であるかどうかにかかわらず、多重線形回帰の結果を示します。実際、(5.2)(そこにあるようにLOOCVエラーを得ることができるというだけでなく、各LOOCV残差が完全回帰からの対応するレバレッジ加重残差と同一であることを示すため、あなたが尋ねたものよりも少し多く表示されます平均の各用語が同じでなくても、平均が一致する他の方法があります)。Xt

少し適応した表記法を使用する自由を取りましょう。

私たちは、最初にすることを示して βをβは、すべてのデータと使用して推定値である βT外に出るときの推定値をXT、観測T。ましょXTそのような行ベクトルとして定義され、Y T=XT βU tは残差です。

β^β^(t)=(u^t1ht)(XX)1Xt,(A)
β^β^(t)X(t)tXty^t=Xtβ^u^t

この証明では、次の行列代数結果を使用します。

ましょう、正則行列でbのベクトルとλをAbλスカラーを。もし そして A+λBB'-1

λ1bA1b
(A+λbb)1=A1(λ1+λbA1b)A1bbA1(B) 

(B)の証明は、

{A1(λ1+λbA1b)A1bbA1}(A+λbb)=I.

次の結果は、証明に役立ちます(A)

(X(t)X(t))1Xt=(11ht)(XX)1Xt. (C)

Proof of (C): By (B) we have, using t=1TXtXt=XX,

(X(t)X(t))1=(XXXtXt)1=(XX)1+(XX)1XtXt(XX)11Xt(XX)1Xt.
So we find
(X(t)X(t))1Xt=(XX)1Xt+(XX)1Xt(Xt(XX)1Xt1Xt(XX)1Xt)=(11ht)(XX)1Xt.

The proof of (A) now follows from (C): As

XXβ^=Xy,
we have
(X(t)X(t)+XtXt)β^=X(t)y(t)+Xtyt,
or
{Ik+(X(t)X(t))1XtXt}β^=β^(t)+(X(t)X(t))1Xt(Xtβ^+u^t).
So,
β^=β^(t)+(X(t)X(t))1Xtu^t=β^(t)+(XX)1Xtu^t1ht,
where the last equality follows from (C).

Now, note ht=Xt(XX)1Xt. Multiply through in (A) by Xt, add yt on both sides and rearrange to get, with u^(t) the residuals resulting from using β^(t) (ytXtβ^(t)),

u^(t)=u^t+(u^t1ht)ht
or
u^(t)=u^t(1ht)+u^tht1ht=u^t1ht

The definition for X(t) is missing in your answer. I assume this is a matrix X with row Xt removed.
mpiktas

Also mentioning the fact that XX=t=1TXtXt would be helpful too.
mpiktas

@mpiktas, yes, thanks for the pointers. I edited to take the first comment into account. Where exactly would the second help? Or just leave it in your comment?
Christoph Hanck

3
When you start the proof of (C) you write (X(t)X(t))1=(XXXtXt)1. That is a nice trick, but I doubt that casual reader is aware of it.
mpiktas

1
Two years later... I appreciate this answer even more, now that I've gone through a graduate-level linear models sequence. I'm re-learning this material with this new perspective. Do you have any suggested references (textbooks?) which go through derivations like what you have in this answer in detail?
Clarinetist
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.