リッジ回帰とPCA回帰の関係

私はウェブ上のどこかでリッジ回帰（正則化）とPCA回帰の関係を読んだことを覚えています：ハイパーパラメーターで -regularized回帰を使用している場合、場合、回帰は最小の固有値を持つPC変数。 $\ell_2$ $\ell_2$ $\lambda$ $\lambda \to 0$

なぜこれが本当ですか？
これは最適化手順と関係がありますか？単純に、私はそれがOLSと同等であると予想していました。
誰かがこれに関するリファレンスを持っていますか？

— ホセ・G
ソース

あなたの声明でPCAと回帰がどのように関連しているかをより明確に説明できますか？回帰では、従属変数と独立変数が区別されますが、PCAではソートは行われません。それでは、PCAをどの変数に適用していますか？独立変数だけではいけません。回帰とはほとんど関係ないからです。しかし、すべての変数に適用される場合、固有ベクトルはそれらすべての線形結合になります。従属変数が含まれているため、そのようなコンポーネントをデータセットから削除することはどういう意味でしょうか？

— whuber

接続（私が理解するように）、非常に小さな正則化ペナルティを使用する場合、L2正規化回帰は最小の固有値を持つ変数を削除します。したがって、設計行列でSVDを実行し、最小の固有値を持つ変数を削除することは、「ソフトな」正則化ペナルティを伴う回帰に相当します。これは、私が見つけた最も近い説明です。 edu /〜jiali / course / stat597e / notes2 / lreg.pdf

— ホセG

あなたの参照は、あなたがあなたのコメントで言っていることの反対を示しているように見えます：小さな場合、結果にはほとんど変化がありません。何も削除されません。実際、いくつかのスライドは、ペナルティ付き回帰（推定値が向かって縮小する）と「PCA回帰」（最小成分が完全に削除される）の違いを指摘することを目的としているようです。状況によっては）。

λ

$\lambda$

L^{2}

$L^2$

0

$0$

— whuber

Mmm ..は別の参照を見つけました：statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf スライド「および主要コンポーネント」では、リッジ回帰はこれらのコンポーネントにyを大きく投影しますdj *ため息*

y^{r i d g e}

$y^{ridge}$

— ホセG 14年

pに気づきましたか。その最新の参考文献の14はあなたの質問に明示的に答えていますか？

— whuber

回答:

ましょう中心に予測子行列とその特異値分解考えると対角要素を有する対角行列である。 $\mathbf X$ $n \times p$ $\mathbf X = \mathbf{USV}^\top$ $\mathbf S$ $s_i$

通常の最小二乗（OLS）回帰の近似値は、リッジ回帰の適合値は、成分のPCA回帰（PCR）の近似値は、次の式で与えられます。

{\hat{y}}_{O L S} = バツ β_{O L S} = バツ （ {バツ}^{⊤} バツ ）^{- 1} {バツ}^{⊤} y = うん {うん}^{⊤} y 。

$\hat {\mathbf y}_\mathrm{OLS} = \mathbf X \beta_\mathrm{OLS} = \mathbf X (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf y = \mathbf U \mathbf U^\top \mathbf y.$

{\hat{y}}_{r 私 d g e} = バツ β_{r 私 d g e} = バツ （ {バツ}^{⊤} バツ + λ 私 ）^{- 1} {バツ}^{⊤} y = うん d 私 a g {\frac{s_{私}^{2}}{s_{私}^{2} + λ}} {うん}^{⊤} y 。

$\hat {\mathbf y}_\mathrm{ridge} = \mathbf X \beta_\mathrm{ridge} = \mathbf X (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y = \mathbf U\: \mathrm{diag}\left\{\frac{s_i^2}{s_i^2+\lambda}\right\}\mathbf U^\top \mathbf y.$

k

$k$

{\hat{y}}_{P C R} = {バツ}_{P C A} β_{P C R} = うん d 私 a g {1 、 \dots 、 1 、 0 、 \dots 0} {うん}^{⊤} y 、

$\hat {\mathbf y}_\mathrm{PCR} = \mathbf X_\mathrm{PCA} \beta_\mathrm{PCR} = \mathbf U\: \mathrm{diag}\left\{1,\ldots, 1, 0, \ldots 0\right\}\mathbf U^\top \mathbf y,$ あるゼロが続くもの。

k

$k$

ここから次のことがわかります。

もし次いで。 $\lambda=0$ $\hat {\mathbf y}_\mathrm{ridge} = \hat {\mathbf y}_\mathrm{OLS}$
場合、特異値大きいほど、リッジ回帰でのペナルティは小さくなります。小さな特異値（以下）が最もペナルティを受けます。 $\lambda>0$ $s_i$ $s_i^2 \approx \lambda$
対照的に、PCA回帰では、大きな特異値はそのまま保持され、小さな値（特定の数後）は完全に削除されます。これは、に相当するであろう最初のためにものと残りのため。 $k$ $\lambda=0$ $k$ $\lambda=\infty$
これは、リッジ回帰がPCRの「スムーズバージョン」と見なされることを意味します。

（この直観は有用ですが、常に成り立つわけではありません;例えば、すべてのがほぼ等しい場合、リッジ回帰はすべての主成分をほぼ等しくペナルティすることができるだけで、PCRとは大きく異なります）。 $s_i$ $\mathbf X$
リッジ回帰は、実際にはパフォーマンスが向上する傾向があります（たとえば、相互検証されたパフォーマンスが高いなど）。
特に今、あなたの質問に答える：もし、その後、。最小のを削除することに対応する方法がわかりません。これは間違っていると思います。 $\lambda \to 0$ $\hat {\mathbf y}_\mathrm{ridge} \to \hat {\mathbf y}_\mathrm{OLS}$ $s_i$

1つの良いリファレンスは、統計学習の要素、セクション3.4.1「リッジ回帰」です。

このスレッドも参照してください：回帰におけるリッジ正則化の解釈、特に@BrianBorchersによる回答。

— アメーバはモニカを復活させると言う
ソース

特異値max（ thresh、0）をソフトしきい値にすると意味がありますか？（なげなわ回帰のソフトしきい値、スペクトルではありません。）

s_{i} -

$s_i -$

β_{L e a s t - s q u a r e s}

$\beta_{Least-squares}$

— denis

k

$k$

うん 診断 （ 1_{1} 、 1_{2} 、 。 。 。 、 1_{k} 、 0 、 。 。 。 、 0 ） {うん}^{T} y

$\mathbf{U} {\text{diag}}(1_1,1_2,...,1_k,0,...,0)\mathbf{U}^T\mathbf{y}$

これは美しいです。

— xxx222

統計学習の要素には、この接続に関する素晴らしい議論があります。

この接続とロジックを解釈した方法は次のとおりです。

PCAは、特徴変数の線形結合であり、新しい空間によって説明されるデータの分散を最大化しようとします。
多重共線性の影響を受けるデータ（またはデータの行よりも多くの予測子）は、完全なランクを持たない共分散行列になります。
この共分散行列では、最小二乗解を決定するために反転することはできません。これにより、最小二乗係数の数値近似が無限に広がります。
Ridge Regressionは、共分散行列にペナルティラムダを導入して、LS係数の行列の反転と収束を可能にします。

PCA接続では、リッジ回帰が特徴の線形結合を計算して、多重共線性が発生している場所を特定します。分散が最小である（したがってPCAの特異値が小さく固有値が小さい）線形結合の特徴（主成分分析）は、最も厳しいペナルティを与えられます。

このように考えてください。最小の分散を持つフィーチャの線形結合の場合、最も類似しているフィーチャが見つかったため、多重共線性が発生しています。Ridgeは、この線形結合が記述している方向に関係なく、フィーチャセットを削減しないため、その方向に対応する元のフィーチャが最もペナルティを受けます。

— MDornbos
ソース

バツ β = y 、

$\mathbf X \beta = \mathbf y\,,$

X

$\mathbf X$

バツ = うん S V^{T} 、

$\mathbf X = \mathbf U \,\mathbf S \,\mathbf V^T,$

S = diag (s_{i})

$\mathbf S = \text{diag}(s_i)$

$\beta$

β_{O L S} = V S^{- 1} {うん}^{T}

$\beta_{OLS} = \mathbf V \,\mathbf S^{-1} \,\mathbf U^T$

s_{i}

$s_i$

$\mathbf S^{-1}$ $\beta$

\begin{aligned} S_{リッジ}^{- 1} & = 診断 （ \frac{s_{私}}{s_{私}^{2} + α} ） 、 \\ β_{リッジ} & = V S_{リッジ}^{- 1} {うん}^{T} \end{aligned}

$\begin{align} \mathbf S^{-1}_{\text{ridge}} &= \text{diag}\bigg(\frac{s_i}{s^2_i+\alpha}\bigg),\\ \beta_{\text{ridge}} &= \ \mathbf V \,\mathbf S_{\text{ridge}}^{-1} \,\mathbf U^T \end{align}$

$\mathbf S^{-1}$

\begin{aligned} S_{PCA}^{- 1} & = 診断 （ \frac{1}{s_{私}} θ （ s_{私} - γ ） ） 、 \\ β_{PCA} & = V S_{PCA}^{- 1} {うん}^{T} \end{aligned}

$\begin{align} \mathbf S^{-1}_{\text{PCA}} &= \text{diag}\bigg(\frac{1}{s_i} \, \theta(s_i-\gamma)\bigg)\,,\\ \beta_{\text{PCA}} &= \ \mathbf V \,\mathbf S_{\text{PCA}}^{-1} \,\mathbf U^T \end{align}$

θ

$\theta$

γ

$\gamma$

したがって、両方の方法は、小さな値に対応する部分空間の影響を弱めます。PCAはそれを難しい方法で行いますが、尾根はより滑らかなアプローチです。

S_{myReg}^{- 1} = 診断 （ R （ s_{私} ） ） 、

$\mathbf S^{-1}_{\text{myReg}} = \text{diag}\big(R(s_i)\big)\,,$

R (x)

$R(x)$

x \to 0

$x\rightarrow 0$

R (x) \to x^{- 1}

$R(x)\rightarrow x^{-1}$

x

$x$

— デビッドハイ
ソース