相互検証(CV)および一般化された相互検証(GCV)統計


23

クロス検証(CV)統計と、線形モデル(通常のホモセダスティックエラーベクトル)。εY=Xβ+εε

一方では、Golub、Heath、WahbaはGCV推定値を(p。216)λ^

最小化V(λ)で与えられる

V(λ)=1nAλy21ntrAλ2
ここで、A(λ)=X(XTX+nλI)1XT

一方、エフロンはV(0)(p。24 と同じ概念を定義していますが、この概念の導入は、その定義(p。377)が本質的に同じであるCraven&Wahbaに起因すると考えています。 Golub、Heath&Wahbaの上記の定義として。

これは、0がV \ left(\ lambda \ right)を0最小化することを意味しますか?V(λ)

同様に、Golub、Heath、Wahbaは\ lambdaの CV推定λ(p。217 )を

P(λ)=1nk=1n([Xβ(k)(λ)]kyk)2

ここで、β(k)(λ)は推定値です

β^(λ)=(XTX+nλI)1XTy

βkのデータポイントの第yi省略。

著者は、CV推定値(PRESS推定値とも呼ばれる)の導入がAllen(「Allen's PRESS」、同書)に起因すると考えています。しかし、Allenの論文では、PRESS推定値はnP(0)(Efronの記事では、P(0)(p。24 と定義されています)。

繰り返しますが、これは0がP \ left(\ lambda \ right)を0最小化することを意味しますか?P(λ)


  1. Allen、David M.変数選択とデータアグメンテーションの関係、および予測方法。Technometrics、Vol。16、No。1(1974年2月)、pp。125-127

  2. クレイヴン、ピーターとワーバ、グレース。スプライン関数を使用したノイズの多いデータの平滑化。Numerische Mathematik 31、(1979)、pp。377-403

  3. エフロン、ブラッドリー。ロジスティック回帰の見かけのエラー率はどの程度偏っていますか?テクニカルレポート番号 232.スタンフォード大学統計学部(1985年4月)

  4. ゴラブ、ジーン・H、ヒース、グレース・ワバ。適切なリッジパラメーターを選択する方法としての一般化された交差検証。Technometrics、Vol。21、No。2(1979年5月)、pp。215-223


7
これはリッジ回帰に適合し、少なくとも二乗には適合しないことを言及するのを忘れましたか?私は完全に何について混乱していた私が一番下にある紙のタイトルを見たまでだったλ
shadowtalker

1
タイトルのGeneralized Cross Validationを削除し、タイトルにRidge Regressionを追加します。ここで何GridSearchCV()RidgeCVためのデフォルト():
HoofarLotusX

回答:


2

コメントは答えを指し示していると思いますが、率直に言っているわけではありません。だから私は鈍くなります。

ここで引用されているV式は、線形リッジ回帰に固有のものです。彼らはそれがPRESSと同じであるとは言わず、彼らはそれがPRESSの回転不変バージョンであると言う。「回転不変」部分は、これを一般化するものです。

エフロンの論文は、その文脈に合わせてカスタマイズされたロジスティック回帰についてです。2つのコンテキスト間の数学の翻訳を見たい場合、読むべき正しい本は、Hastie、Tibshirani、およびFreedmanによる2dの統計学習の要素です。:彼らは、その本の自由、オンライン提供https://web.stanford.edu/~hastie/Papers/ESLII.pdfを。GCVに関するもう1つの参考資料は、Simon WoodによるGeneralized Additive Modelsです。彼の治療は、一般にGCVを回帰およびロジスティック回帰のアプリケーションと統合します。

ESLの本、p 244を見ると、基本的に同じシンボルが表示されます。彼らはあなたが持っているその大きな行列積をより滑らかな行列と呼んでいます(私はそれをハット行列、またはほぼ従兄弟と言います)。スムーザーは、からへのマッピングとして記述されSyy^

y^=Sy

Sは、データの各行に1つずつ、1つのCV値を除外するために使用できます。以下のために線形モデル、行列は、回帰診断でハット行列の役割を果たしています。しかし、彼らはそれを計算するのは計算上困難であるか不要であるかもしれないと言い、GCVアプローチは同じ考えのもう少し一般的なバージョンです。S

GCV の近似式を提供します:

GCV(f^)=1Ni=1N[yif^(xi)1trace(S)/N]2

これは、多くのモデルのAICと動作が非常に似ています。、パラメータの有効数です。traceS

あなたが引用部分は、より一般の痕跡である。私が理解できる限りでは、抽象GCVはクロス検証の除外バージョンの近似バージョンですが、場合によっては(リッジ回帰と思われます)、正確です。これがGolub論文の主要なポイントです。nλS

幸運を祈ります


ありがとう。5年以上前に質問を投稿しましたが、それ以来、この資料のほとんどを忘れてしまったので、あなたの答えを評価して、それが良い(そうであるように見える)か悪いかを判断することはできません。私もそれを受け入れることができません。投稿してくれてありがとう。うまくいけば、このページに出くわすかもしれない他の人に役立つでしょう。
エヴァンアード
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.