リッジ回帰の反転：与えられた応答行列と回帰係数、適切な予測子を見つける

標準的なOLS回帰問題：行列とあり、を最小化するためにを見つけたいです解はで与えられ $\newcommand{\Y}{\mathbf Y}\newcommand{\X}{\mathbf X}\newcommand{\B}{\boldsymbol\beta}\DeclareMathOperator*{argmin}{argmin}$ $\Y$ $\X$ $\B$

L = ‖ Y - X β ‖^{2} .

$L=\|\Y-\X\B\|^2.$

\hat{β} = \underset{β}{argmin} {L} = (X^{⊤} X)^{+} X^{⊤} Y .

$\hat\B=\argmin_\B\{L\} = (\X^\top\X)^+\X^\top \Y.$

「逆」問題を提起することもできます： $\Y$ と与えられると、を生成するを $\B^*$ 見つけます。つまり、を最小化します。。つまり、応答行列と係数ベクトルあり、近い係数を生成する予測行列を見つけたいと思います。これはもちろん、解決策回帰問題でもあります $\hat\X$ $\hat\B\approx \B^*$ $\|\argmin_\B\{L\}-\B^*\|^2$ $\Y$ $\B^*$ $\B^*$

\hat{X} = \underset{X}{argmin} {‖ \underset{β}{argmin} {L} - β^{*} ‖^{2}} = Y β^{⊤} (β β^{⊤})^{+} .

$\hat\X = \argmin_\X\Big\{\|\argmin_\B\{L\}-\B^*\|^2\Big\} = \Y\B^\top(\B\B^\top)^{+}.$

明確化の更新： @ GeoMatt22が彼の答えで説明したように、 $\Y$ がベクトルの場合（つまり、応答変数が1つだけの場合）、この $\hat \X$ はランク1になり、逆問題は大幅に過少決定されます。私の場合、 $\Y$ は実際には行列です（つまり、多くの応答変数があり、多変量回帰です）。したがって、 $\X$ は $n\times p$ 、 $\Y$ は $n\times q$ 、 $\B$ は $p\times q$ です。

リッジ回帰の「逆」問題の解決に興味があります。つまり、損失関数は

L = ‖ Y - X β ‖^{2} + μ ‖ β ‖^{2}

$L=\|\Y-\X\B\|^2+\mu\|\B\|^2$ なり、解は

\hat{β} = \underset{β}{argmin} {L} = (X^{⊤} X + μ I)^{- 1} X^{⊤} Y .

$\hat\B=\argmin_\B\{L\}=(\X^\top \X+\mu\mathbf I)^{-1}\X^\top \Y.$

「逆」問題は、

\hat{X} = \underset{X}{argmin} {‖ \underset{β}{argmin} {L} - β^{*} ‖^{2}} = ?

$\hat\X = \argmin_\X\Big\{\|\argmin_\B\{L\}-\B^*\|^2\Big\} = \;?$

繰り返しますが、応答行列 $\Y$ と係数ベクトル $\B^*$ あり、近い係数を生成する予測行列を見つけたいと思います $\B^*$ 。

実際には、2つの関連する定式化があります。

とと与えられたを見つけます。 $\hat\X$ $\Y$ $\B^*$ $\mu$
検索と与えと。 $\hat\X$ $\hat \mu$ $\Y$ $\B^*$

どちらにも直接的な解決策がありますか？

問題を説明するためのMatlabの簡単な抜粋を次に示します。

% generate some data
n = 10; % number of samples
p = 20; % number of predictors
q = 30; % number of responses
Y = rand(n,q);
X = rand(n,p);
mu = 0;
I = eye(p);

% solve the forward problem: find beta given y,X,mu
betahat = pinv(X'*X + mu*I) * X'*Y;

% backward problem: find X given y,beta,mu
% this formula works correctly only when mu=0
Xhat =  Y*betahat'*pinv(betahat*betahat');

% verify if Xhat indeed yields betahat
betahathat = pinv(Xhat'*Xhat + mu*I)*Xhat'*Y;
max(abs(betahathat(:) - betahat(:)))

このコードmu=0は、そうでなければゼロを出力します。

regression least-squares ridge-regression

— アメーバはモニカを復活させると言う
ソース

以来と与えられている、彼らは損失の変動に影響を与えません。したがって、（1）では、まだ OLSを実行しています。（2）同様に単純です。これは、負に任意に負にすることで、比較する制約の制限内で損失を任意に小さくできるためです。これにより、ケース（1）になります。

B

$B$

μ

$\mu$

\hat{μ}

$\hat\mu$

— whuber

@whuberありがとう。私はそれを十分に明確に説明しなかったと思います。（1）を検討してください。とが与えられます（これをと呼びましょう）が、近いリッジ回帰係数をもたらすを見つける必要があります。つまり、最小化するを見つけたいです。これがOLSである理由がわかりません。

B

$B$

μ

$\mu$

B^{*}

$B^*$

X

$X$

B^{*}

$B^*$

X

$X$

‖ \underset{B}{argmin} {L_{r i d g e} (X, B)} - B^{*} ‖^{2} .

$\Big\|\operatorname*{argmin}_B\big\{ L_\mathrm{ridge}(X,B)\big\} - B^*\Big\|^2.$

— アメーバは、モニカを復活させる

私が持っているようなものだ、私は知りたいように近い与えられたのである。を見つけることとはます。

f (v, w)

$f(v,w)$

v

$v$

{argmin}_{w} f (v, w)

$\operatorname{argmin}_w f(v,w)$

w^{*}

$w^*$

{argmin}_{v} f (v, w^{*})

$\operatorname{argmin}_v f(v,w^*)$

— アメーバは、モニカーを復活させる

あなたの投稿の説明は、その問題について混乱しています。なぜなら、あなたは実際にを損失関数として使っていないからです。投稿の問題（1）および（2）の詳細について詳しく説明していただけますか？

L

$L$

— whuber

@ hxd1011 Xの多くの列は通常「重回帰」と呼ばれ、Yの多くの列は通常「多変量回帰」と呼ばれます。

— アメーバは、モニカーを復活させる

問題が対象の問題のより正確な定式化に収束したので、ケース1（既知のリッジパラメーター）の解決策を見つけました。これは、ケース2（正確な分析ソリューションではなく、単純な式といくつかの制約）にも役立ちます。

要約： 2つの逆問題定式化のどちらにも固有の答えはありません。でケース2リッジパラメータ、不明で、無限に多くのソリューションがありますため、。が指定されているケース1では、特異値スペクトルのあいまいさが原因で、有限数の解があります。 $\mu\equiv\omega^2$ $X_\omega$ $\omega\in[0,\omega_\max]$ $\omega$ $X_\omega$

（派生は少し長いので、TL、DR：最後に機能するMatlabコードがあります。）

未決定のケース（「OLS」）

前方問題はここで、、および。

min_{B} ‖ X B - Y ‖^{2}

$\min_B\|XB-Y\|^2$

X \in R^{n \times p}

$X\in\mathbb{R}^{n\times p}$

B \in R^{p \times q}

$B\in\mathbb{R}^{p\times q}$

Y \in R^{n \times q}

$Y\in\mathbb{R}^{n\times q}$

更新された質問に基づいて、であると仮定します。したがって、と与えられた場合、は決定です。質問のように、私たちは「デフォルト」を仮定します（最小ノルム）解ある擬似逆の。 $n<p<q$ $B$ $X$ $Y$ $L_2$

B = X^{+} Y

$B=X^+Y$

X^{+}

$X^+$

X

$X$

*で与えられるの特異値分解（SVD）から、擬似逆は**として計算できます。（第2の式が減少SVDを使用しながら、*最初の式は、フルSVDを使用**簡単にするために、私が想定しています。フルランクを有する、すなわちが存在します。） $X$

X = U S V^{T} = U S_{0} V_{0}^{T}

$X=USV^T=US_0V_0^T$

X^{+} = V S^{+} U^{T} = V_{0} S_{0}^{- 1} U^{T}

$X^+=VS^+U^T=V_0S_0^{-1}U^T$

X

$X$

S_{0}^{- 1}

$S_0^{-1}$

順問題は、溶液持つように将来の参考のために、Iノートその、は特異値のベクトルです。

B \equiv X^{+} Y = (V_{0} S_{0}^{- 1} U^{T}) Y

$B\equiv X^+Y=\left(V_0S_0^{-1}U^T\right)Y$

S_{0} = d i a g (σ_{0})

$S_0=\mathrm{diag}(\sigma_0)$

σ_{0} > 0

$\sigma_0>0$

逆問題では、とが与えられます。は上記のプロセスから来たことを知っていますが、ません。タスクは適切なを決定することです。 $Y$ $B$ $B$ $X$ $X$

更新された質問で述べたように、この場合、本質的に同じアプローチを使用してを回復できます。つまり、逆を使用してなります。 $X$

X_{0} = Y B^{+}

$X_0=YB^+$

B

$B$

過剰決定ケース（リッジ推定器）

「OLS」の場合、最小ノルムのソリューションを選択することで、未決定の問題が解決されました。つまり、「一意の」ソリューションが暗黙的に正則化されました。

最小ノルムのソリューションを選択するのではなく、ここでパラメーターを導入して、ノルムの「小ささ」を制御します。つまり、リッジ回帰を使用します。 $\omega$

この場合、与えられる、一連の前方問題があります左右の異なるベクトルを収集する問題は、次の「OLS」問題に還元できます。ここで、拡張行列 $\beta_k$ $k=1,\ldots,q$

min_{β} ‖ X β - y_{k} ‖^{2} + ω^{2} ‖ β ‖^{2}

$\min_\beta\|X\beta-y_k\|^2+\omega^2\|\beta\|^2$

B_{ω} = [β_{1}, \dots, β_{k}], Y = [y_{1}, \dots, y_{k}]

$B_{\omega}=[\beta_1,\ldots,\beta_k] \quad,\quad Y=[y_1,\ldots,y_k]$

min_{B} ‖ X_{ω} B - Y ‖^{2}

$\min_B\|\mathsf{X}_\omega B-\mathsf{Y}\|^2$

X_{ω} = [\begin{matrix} X \\ ω I \end{matrix}], Y = [\begin{matrix} Y \\ 0 \end{matrix}]

$\mathsf{X}_\omega=\begin{bmatrix}X \\ \omega I\end{bmatrix} \quad , \quad \mathsf{Y}=\begin{bmatrix}Y \\ 0 \end{bmatrix}$

この過剰決定の場合、解はまだ擬似逆によって与えられが、擬似逆は現在変更されており、結果は* ここで、新しい「特異点スペクトル」行列は（逆）対角線を持ちます** （*幾分関与計算は、これは簡潔にするために省略されている導出するために必要な。それは博覧会に類似して、ここのためケース。**ここでのエントリベクトルは、ベクトルで表されます。すべての操作はエントリ単位です。

B_{ω} = X^{+} Y

$B_\omega = \mathsf{X}^+\mathsf{Y}$

B_{ω} = (V_{0} S_{ω}^{- 2} U^{T}) Y

$B_\omega = \left(V_0S_\omega^{-2}U^T\right) Y$

σ_{ω}^{2} = \frac{σ_{0}^{2} + ω^{2}}{σ_{0}}

$\sigma_\omega^2 = \frac{\sigma_0^2+\omega^2}{\sigma_0}$

p \leq n

$p\leq n$

σ_{ω}

$\sigma_\omega$

σ_{0}

$\sigma_0$

この問題では、として「基本ソリューション」を正式に回復できますが、これはもはや真のソリューションではありません。

X_{ω} = Y B_{ω}^{+}

$X_\omega=YB_\omega^+$

ただし、この「解決策」はSVD 持ち、上記の特異値持つという類似性がまだあります。

X_{ω} = U S_{ω}^{2} V_{0}^{T}

$X_\omega=US_\omega^2V_0^T$

σ_{ω}^{2}

$\sigma_\omega^2$

したがって、目的の特異値を回復可能な特異値および正則化パラメーター関連付ける2次方程式を導出できます。解は $\sigma_0$ $\sigma_\omega^2$ $\omega$

σ_{0} = \bar{σ} \pm Δ σ, \bar{σ} = \frac{1}{2} σ_{ω}^{2}, Δ σ = \sqrt{(\bar{σ} + ω) (\bar{σ} - ω)}

$\sigma_0=\bar{\sigma} \pm \Delta\sigma \quad , \quad \bar{\sigma} = \tfrac{1}{2}\sigma_\omega^2 \quad , \quad \Delta\sigma = \sqrt{\left(\bar{\sigma}+\omega\right)\left(\bar{\sigma}-\omega\right)}$

以下のMatlabデモ（Octaveを介してオンラインでテスト済み）は、この解決方法が理論と同様に実際に機能するように見えることを示しています。最後の行のショーは、すべての特異値という復興している、私は完全に取るためにどのルート考え出したていない（=対）。それは常になりますルート。これは一般に「小さい」に当てはまるようですが、「大きい」はルートが引き継ぐようです。（以下のデモは現在「大」ケースに設定されています。） $X$ $\bar{\sigma}\pm\Delta\sigma$ sgn $+$ $-$ $\omega=0$ $+$ $\omega$ $\omega$ $-$

% Matlab demo of "Reverse Ridge Regression"
n = 3; p = 5; q = 8; w = 1*sqrt(1e+1); sgn = -1;
Y = rand(n,q); X = rand(n,p);
I = eye(p); Z = zeros(p,q);
err = @(a,b)norm(a(:)-b(:),Inf);

B = pinv([X;w*I])*[Y;Z];
Xhat0 = Y*pinv(B);
dBres0 = err( pinv([Xhat0;w*I])*[Y;Z] , B )

[Uw,Sw2,Vw0] = svd(Xhat0, 'econ');

sw2 = diag(Sw2); s0mid = sw2/2;
ds0 = sqrt(max( 0 , s0mid.^2 - w^2 ));
s0 = s0mid + sgn * ds0;
Xhat = Uw*diag(s0)*Vw0';

dBres = err( pinv([Xhat;w*I])*[Y;Z] , B )
dXerr = err( Xhat , X )
sigX = svd(X)', sigHat = [s0mid+ds0,s0mid-ds0]' % all there, but which sign?

逆問題は一般的に不適切であり、分析的ソリューションは非常に脆弱であるため、このソリューションがどれほど堅牢であるかを言うことはできません。しかし、をガウスノイズで汚染する大雑把な実験（つまり、フルランクと低減ランク持っている）は、メソッドが適切に動作していることを示しているようです。 $B$ $p$ $n$

問題2（IE用として不明）、上記少なくとも与え上限に。二次判別式が非負であるためには、 $\omega$ $\omega$

ω \leq ω_{max} = {\bar{σ}}_{n} = min [\frac{1}{2} σ_{ω}^{2}]

$\omega \leq \omega_{\max} = \bar{\sigma}_n = \min[\tfrac{1}{2}\sigma_\omega^2]$

二次ルート符号のあいまいさについて、次のコードスニペットは、がと異なる場合でも、符号に関係なく、すべてのが同じ前方リッジ解を与えることを示しています。 $\hat{X}$ $B$ $\sigma_0$ $\mathrm{SVD}[X]$

Xrnd=Uw*diag(s0mid+sign(randn(n,1)).*ds0)*Vw0'; % random signs
dBrnd=err(pinv([Xrnd;w*I])*[Y;Z],B) % B is always consistent ...
dXrnd=err(Xrnd,X) % ... even when X is not

— GeoMatt22
ソース

+11。この質問に答えるためにあなたが注いだすべての努力と、私たちが行ったすべての議論に感謝します。これは私の質問に完全に答えているようです。この場合、単にあなたの答えを受け入れるだけでは十分ではないと感じました。これは、この回答が現在持っている2つ以上の賛成に値します。乾杯。

— アメーバは、モニカーを復活させる

@amoebaありがとう！役に立ったことがうれしいです。あなたがリンクするwhuberの答えにコメントを投稿すると思います。彼がそれが適切であると思うかどうか、そして/または使用するより良い答えがあるかどうか尋ねます。（ただし、彼はSVDの議論の前書きに、つまり過剰に決定されたます。）

p \leq n

$p\leq n$

X

$X$

— GeoMatt22

@ GeoMatt22元の質問に対する私のコメントは、使用することpinvは良いことではないと言っています、あなたは同意しますか？

— ハイタオデュ

@ hxd1011通常、あなたは（ほとんど）行列を数値的に明示的に反転させることを決して望みません。これは疑似逆にも当てはまります。ここで使用した2つの理由は、1）数学方程式+ amoebaのデモコードとの整合性、2）未決定システムの場合、デフォルトのMatlabの「スラッシュ」解はpinv解と異なる可能性があることです。私のコードのほとんどすべてのケースは、適切な\または/コマンドで置き換えることができます。これらのコマンドは一般的に推奨されます。（これらにより、Matlabは最も効果的な直接ソルバーを決定できます。）

— GeoMatt22

@ hxd1011 は、元の質問に関するコメントのリンクから、以前のコメントのポイント2を明確にします。「AのランクがAの列数よりも小さい場合、x = A \ Bは必ずしも最小ではありませんノルム解法。計算量の多いx = pinv（A）* Bは、最小ノルム最小二乗解法を計算します。」

— GeoMatt22