リッジ回帰は、どのような条件下で通常の最小二乗回帰よりも改善できますか?


16

リッジ回帰は、線形モデルのパラメーター推定します byここで\ lambdaは正則化パラメーターです。多くの相関予測子がある場合、OLS回帰(\ lambda = 0を使用)よりもパフォーマンスがよく向上することがよく知られています。Y = X β β λ = XX + λ I - 1 XYλ λ = 0βy=Xβ

β^λ=(XX+λI)1Xy,
λλ=0

リッジ回帰の存在定理によれば、パラメーター\ lambda ^ *> 0常に存在するため、\ hat {\ boldsymbol \ beta} _ \ lambdaの平均二乗誤差はOLSの平均二乗誤差よりも厳密に小さくなります。推定\帽子{\ boldsymbol \ベータ} _ \ mathrm {OLS} = \帽子{\ boldsymbol \ベータ} _0。つまり、\ lambdaの最適値は常にゼロではありません。これは、1970年HoerlとKennardで最初に証明されたことが明らかにされており、オンラインで見つけた多くの講義ノートで繰り返されています(ここここ)。私の質問は、この定理の仮定に関するものです。λ>0β^λβ^OLS=β^0λ

  1. 共分散行列\ mathbf X ^ \ top \ mathbf Xに関する仮定はありますXXか?

  2. \ mathbf Xの次元についての仮定はありますXか?

特に、予測子が直交する場合(つまり、XXが対角線である場合)、または\ mathbf X ^ \ top \ mathbf X = \ mathbf Iである場合でも、定理は依然として真XX=Iですか?また、予測子が1つまたは2つ(たとえば、1つの予測子と1つの切片)しかない場合でも、本当ですか?

定理がそのような仮定をせず、これらの場合でも真のままである場合、なぜリッジ回帰は通常相関予測子の場合にのみ推奨され、単純な(つまり多重ではない)回帰には決して(?)推奨されないのですか?


これは、収縮に関する統一された見解に関する私の質問に関連しています。混合モデルでのスタインのパラドックス、リッジ回帰、およびランダム効果の間の関係(ある場合)とは何ですか?、しかし、これまでのところこの点を明確にする答えはありません。


1
最後の質問を除くすべてが、特に序文の最初の文と結論の最初の文で、Hoerl&Kennardの論文で直接扱われているようです。最後の質問は、定数ベクトルと任意の単一の予測子の間の共分散が常にゼロであることに注意して答えることができます。これにより、(標準的な方法で)を行列に減らすことができます。 1×1XX1×1
whuber

1
ありがとう、@ whuber。Hoerl&Kennardの論文は私の質問(少なくとも技術的な質問)に答えると信じています。証拠をたどり、仮定を確認できるはずです(まだやっていません)。しかし、私はあなたが言及している文章に完全には納得していません。イントロの最初の文は私の質問にどのように関係していますか?結論の最初の文は、が均一なスペクトル(たとえば、等しい)の場合、定理が適用されないこと示唆しています。しかし、証拠の前にこの仮定が明示的に述べられていないので、100%確信はありません。IXXI
アメーバは2014

ルック質問の何種類によって求められることができ、高担当者ユーザー(通常は唯一の答えそれらを()と同様に、ここで送ってくれたあなたの他のリンクの質問にはstats.stackexchange.com/questions/122062/...
javadba

回答:


11

1と2の両方に対する答えはノーですが、存在定理の解釈には注意が必要です。

リッジ推定量の分散

してみましょうペナルティ下の尾根の見積もりも、とletモデルの真のパラメータである。してみましょうの固有値も。 Hoerl&Kennardの式4.2-4.5から、リスク(予想される誤差のノルムに関して)は KβY=Xβ+ελ1...λPXTXL2β^kβY=バツβ+ϵλ1λpバツTバツ
L2

X T X+k I p 2=X T X+k I p 1X T X+k I p 1γ1 ^ β * -βγ2

E([β^β]T[β^β])=σ2j=1pλj/(λj+k)2+k2βT(XTX+kIp)2β=γ1(k)+γ2(k)=R(k)
私が知る限り、 彼らは、はの内積の分散の解釈があることにてください。一方、はバイアスの内積です。(XTX+kIp)2=(XTX+kIp)1(XTX+kIp)1.γ1β^βγ2

仮に、次いで ましょう は、リスクw / r / tの導関数です。以降 、我々が存在すると結論いくつかのように R K = P σ 2 + K 2 β T βXTX=IpR'K=2K1+KβTβ- Pσ2+K2βTβ

R(k)=pσ2+k2βTβ(1+k)2.
R(k)=2k(1+k)βTβ(pσ2+k2βTβ)(1+k)3
klimk0+R(k)=2pσ2<0k>0R(k)<R(0)

著者は、直交性がでのリスクの観点から期待できる最高のものであり、条件数が増加すると、アプローチk=0XTXlimk0+R(k)

コメント

ここにパラドックスがあるようですでが一定の場合、正規変数のシーケンスの平均を推定しているだけで、バニラの不偏推定値を知っています。この場合は許容されます。これは、上記の推論が、固定のに対して最小化値が存在することを単に提供することに注意することによって解決されます。しかし、任意の、作成することでリスクを爆発させることができますp=1X(β,σ2)kβTβkβTβ大きくこの引数だけではリッジ推定の許容性を示しません。

相関回帰の場合にのみリッジ回帰が通常推奨されるのはなぜですか?

H&Kのリスク導出は、が小さいと考え、設計がほぼ特異であれば、推定のリスクを大幅に削減できることを示しています。OLS推定値は安全なデフォルトであり、不変性と不偏性の特性は魅力的であるため、リッジ回帰は普遍的に使用されていないと思います。失敗すると、正直に失敗します。共分散行列が爆発します。おそらく、哲学的/推論的な点もあります。設計がほぼ特異であり、観測データがある場合、単位変更に対して変更を与えるとしてのの解釈βTβXTXβEYXは疑わしいです-大きな共分散行列はその症状。

しかし、目標が予測のみである場合、推論の懸念はもはや成り立たず、何らかの収縮推定量を使用することに対する強い議論があります。


2
わあ、ありがとう!あなたの「コメント」セクションの私の理解を確認しましょう:与えられたについて、最適なはゼロではありませんが、その値は異なるベータで異なり、固定はすべてのベータでを超えることはできません。許容性に必要なもの。正しい?それとは別に、私の一般的な質問についてコメントしてください:[定理がそのような仮定をしていない場合]なぜリッジ回帰は通常相関予測因子にのみ推奨され、単純な(複数ではなく)回帰には決して推奨されないのですか?それは、肯定的な効果が小さすぎてわずらわしいことが経験的に知られているからでしょうか?βkkk=0
アメーバは、モニカーを復活させる14

2
H&Kは、常にがフルランクのものであると想定しています。#1の答えが「いいえ」であると述べることにより、そうでない場合でも結果が真実であり続けると主張していますか?XX
whuber

3
@whuber:リスクのそれらの導出の中心は、そのリッジ推定値β Z = X T X - 1 + kはI P - 1 X T X K ^ β *0 β T ββ^=Zβ^であり、ここではOLS推定であり、。がランク不足の場合、これは明らかに成り立ちません。しかし、OLS推定値は存在しないため、おそらく有限のリスク(十分に大きくすると、が得られ、リスクが得られる)存在しない推定量よりも?リスクの派生がまだ当てはまる限り、私にはわかりません。別の証明が必要になります。β^Z=((XTX)1+kIp)1XTXkβ^0βTβ
アンドリューM 14年

3
λ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.