線形回帰の最小二乗法と疑似逆法の違いは何ですか？

11

それらの違いを知りたいです。基本的に、それらは最後にパラメーターの係数を見つけるときに同じ仕事をしますが、係数を見つける方法が異なるだけです。私にとって、最小二乗法は微分と行列形式を使用して係数を見つけ、疑似逆行列は行列操作のみを使用しているようですが、それらの違いをどのように言えますか？またはまったく違いはありませんか？

— user122358
ソース

Moore-Penrose疑似逆行列は、定義により、最小二乗解を提供します。しかし、最小二乗の概念は、通常のモデルでの最尤推定からも導き出すことができます。

— ルカシュGradの

13

線形回帰のコンテキストでは、「最小二乗」とは、二乗誤差を最小化する係数を見つけたいという意味です。この最小化の実行方法は指定されておらず、多くの可能性があります。応答ベクトルにリグレッサ行列のMoore-Penrose疑似逆数を乗算することは、これを行う1つの方法であり、したがって、最小二乗線形回帰に対する 1つのアプローチです（他の人が指摘したとおり）。

回帰行列が完全なランクを持っていない場合、メソッド間の違いが生じる可能性があります。これは、たとえば、変数の数がデータポイントの数を超える場合に発生する可能性があります。この場合、最適な係数の選択肢は無限にあります。メソッドは、この無限のセットから1つのソリューションを選択する方法が異なります。この状況での疑似逆法の際立った特徴は、最小値で解を返すことです。 $\ell_2$ 規範。

— user20160
ソース

これは正しい答えですが、より具体的に言えば、最小L2ノルムソリューションが返されます。これは、ノルムを定義する方法が無限にあるためです。たとえば、ソリューションが最良のものではないことに注意することが重要です。 L0およびL_infinityノルムの意味で。

— ブームキン2018

とても本当です。私は暗黙のうちにL2を意味しましたが、あなたが提案するように、より具体的になるように編集されました。

— user20160 2018

3

それは、「分化技術」が何を意味するかによる。それによって私が理解できる方法は2つあります。

微分を使用して勾配を導出し、エラーサーフェスで勾配降下を実行します。ただし、これは線形回帰ではかなり珍しいことです（ただし、他の種類の回帰では異なります）。
微分を使用して勾配を導出し、次にそれを使用して勾配をゼロに設定することにより最小値を分析的に決定します。

最初の方法は、疑似逆法とは大きく異なります。2番目は違います。微分を実行し、勾配をゼロに設定した結果の方程式を解くと、一般的な解決策として正確に疑似逆行列が得られます。

これについて考えれば、それは非常に理にかなっています。異なる技法が異なる係数につながる場合、どちらが正しいかを判断するのは困難です。それらが同じ係数を生成する場合、ある方法に使用される方程式を別の方法から導出できることも事実です。

— LiKao
ソース

3

他の回答で指摘されているように、疑似逆行列を掛けることは、最小二乗解を得る方法の1つです。

その理由は簡単です。あなたが持っているとしましょう $k$ ポイントイン $n-$ 次元空間：

バツ = [\begin{matrix} 1 & {バツ}_{11} & {バツ}_{12} & {バツ}_{13} & \dots & {バツ}_{1 ん} \\ 1 & {バツ}_{21} & {バツ}_{22} & {バツ}_{23} & \dots & {バツ}_{2 ん} \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ 1 & {バツ}_{k 1} & {バツ}_{k 2} & {バツ}_{k ３} & \dots & {バツ}_{k ん} \end{matrix}]

$X = \begin{bmatrix} 1 & x_{11} & x_{12} & x_{13} & \dots & x_{1n} \\ 1 & x_{21} & x_{22} & x_{23} & \dots & x_{2n} \\ \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{k1} & x_{k2} & x_{k3} & \dots & x_{kn} \end{bmatrix}$

対応する各点に値を持たせます $Y$ ：

Y = [\begin{matrix} y_{1} \\ y_{2} \\ ⋮ \\ y_{k} \end{matrix}]

$Y = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_k \end{bmatrix}$

重みのセットを見つけたい

W = [\begin{matrix} w_{1} \\ w_{2} \\ ⋮ \\ w_{ん} \end{matrix}]

$W = \begin{bmatrix} w_1 \\ w_2 \\ \vdots \\ w_n \end{bmatrix}$

その間の二乗誤差が $XW$ そして $Y$ 最小化、つまり最小二乗解です。 $min_Wf(W)$ 、どこ $f(W) = (Y-XW)^T(Y-XW)$ （あなたは簡単にそれを見ることができます $f(W)$ エラーの二乗の合計です）。

それを行うには、 $f(W)$ 沿って $W$ に設定します $0$ ：

\frac{δ f}{δ W} = \frac{δ （ Y - バツ W ）^{T} （ Y - バツ W ）}{δ W} = \frac{δ （ Y^{T} Y - W^{T} {バツ}^{T} Y - Y^{T} バツ W + W^{T} {バツ}^{T} バツ W ）}{δ W} = \frac{δ （ Y^{T} Y - 2 Y^{T} バツ W - Y^{T} バツ W + W^{T} {バツ}^{T} バツ W ）}{δ W} = \frac{δ Y^{T} Y - 2 Y^{T} バツ W + W^{T} {バツ}^{T} バツ W}{δ W} = - 2 Y^{T} バツ + 2 W^{T} {バツ}^{T} バツ

$\frac{\delta f}{\delta W} = \frac{\delta (Y-XW)^T(Y-XW)}{\delta W} = \frac{\delta (Y^TY - W^TX^TY - Y^TXW + W^TX^TXW)}{\delta W} = \frac{\delta (Y^TY - 2Y^TXW - Y^TXW + W^TX^TXW)}{\delta W} = \frac{\delta Y^TY - 2Y^TXW + W^TX^TXW}{\delta W} = -2Y^TX + 2W^TX^TX$

導関数を $0$ ：

2 W^{T} {バツ}^{T} バツ = 2 Y^{T} バツ

$2W^TX^TX = 2Y^TX$

{バツ}^{T} バツ W = {バツ}^{T} Y

$X^TXW = X^TY$

（ {バツ}^{T} バツ ）^{- 1} {バツ}^{T} バツ W = （ {バツ}^{T} バツ ）^{- 1} {バツ}^{T} Y

$(X^TX)^{-1}X^TXW = (X^TX)^{-1}X^TY$

W = （ {バツ}^{T} バツ ）^{- 1} {バツ}^{T} Y

$W = (X^TX)^{-1}X^TY$

このようにして、最小二乗問題の解として疑似逆行列を導出できます。

— ゆるい
ソース

2

ŁukaszGradが指摘したように、疑似逆解は最小二乗誤差に基づいています。つまり、あなたは実際に最小化問題を解決しています、

$E(W) =\frac{1}{2}\sum \left(y^{(i)}-W ^Tx^{(i)}\right)^2$

エラーwrtを区別することによって $W$ 。次に、ソリューションを取得します。 $W = \left(X^TX\right)^{-1}X^TY$ 。（擬似逆行列は逆行列ではないことに注意してください。したがって、解を等しいと解釈することはできません。 $X^{-1}Y$ 、からの解決策のように見えるかもしれません $XW = Y$ マトリックス操作で直接。これは、疑似逆行列を見つける方法の別のトピックです。）

共分散ベースのソリューションについて質問している場合 $W = \frac{cov(X, Y)}{var(X)}$ 、それの間の線形関係に基づいて直接的な解決策として解釈することができます $X$ そして $Y$ 。実際、このソリューションも最小二乗誤差から厳密に推定されており、その差は疑似逆のものとは本質的ではありません。これはまだ疑似逆解ですが、線が確実に平均値のポイントを通過することを知っています $(\bar{X},\bar{Y})$ 。したがって、エラーメジャーは次のように書き直すことができます。

$E(W) =\frac{1}{2}\sum \left((y^{(i)}-\bar{y})-W ^T(x^{(i)}-\bar{x})\right)^2$

使うとき $x-\bar{x}$ 表現します $x$ そして $y-\bar{y}$ 表現します $y$ 、疑似逆行列を使用したソリューションは、共分散を使用したソリューションと同じです。違いは、切片を個別に計算する必要があることです。なぜなら、 $x$ そして $y$ 、あなたは実質的に座標を中心に置きます $(\bar{x}, \bar{y})$ そしてあなたのラインはそれを通過するので、切片はゼロです。で切片を計算することにより、新しい座標系を元の座標系にマッピングしました $w_{0} = \bar{y} -W^{T}\bar{x}$ 。

— 小鳳李
ソース