リッジ回帰は、線形モデルのパラメーター推定します byここで\ lambdaは正則化パラメーターです。多くの相関予測子がある場合、OLS回帰(\ lambda = 0を使用)よりもパフォーマンスがよく向上することがよく知られています。Y = X β β λ = (X ⊤ X + λ I )- 1 X ⊤ Y、λ λ = 0
リッジ回帰の存在定理によれば、パラメーター\ lambda ^ *> 0が常に存在するため、\ hat {\ boldsymbol \ beta} _ \ lambdaの平均二乗誤差はOLSの平均二乗誤差よりも厳密に小さくなります。推定\帽子{\ boldsymbol \ベータ} _ \ mathrm {OLS} = \帽子{\ boldsymbol \ベータ} _0。つまり、\ lambdaの最適値は常にゼロではありません。これは、1970年にHoerlとKennardで最初に証明されたことが明らかにされており、オンラインで見つけた多くの講義ノートで繰り返されています(こことここ)。私の質問は、この定理の仮定に関するものです。
共分散行列\ mathbf X ^ \ top \ mathbf Xに関する仮定はありますか?
\ mathbf Xの次元についての仮定はありますか?
特に、予測子が直交する場合(つまり、が対角線である場合)、または\ mathbf X ^ \ top \ mathbf X = \ mathbf Iである場合でも、定理は依然として真ですか?また、予測子が1つまたは2つ(たとえば、1つの予測子と1つの切片)しかない場合でも、本当ですか?
定理がそのような仮定をせず、これらの場合でも真のままである場合、なぜリッジ回帰は通常相関予測子の場合にのみ推奨され、単純な(つまり多重ではない)回帰には決して(?)推奨されないのですか?
これは、収縮に関する統一された見解に関する私の質問に関連しています。混合モデルでのスタインのパラドックス、リッジ回帰、およびランダム効果の間の関係(ある場合)とは何ですか?、しかし、これまでのところこの点を明確にする答えはありません。