2
リッジ回帰における「行列反転の数値的安定性」の明快な説明とオーバーフィットの低減におけるその役割
私は最小二乗回帰問題で正則化を使用できることを理解しています w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] そして、この問題は次のような閉じた形の解決策を持っています: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. 2番目の方程式では、正則化はX T Xの対角にを追加するだけであることがわかります。これは、行列反転の数値的安定性を改善するために行われます。λλ\lambdaXTXXTX\boldsymbol{X}^T\boldsymbol{X} 数値の安定性に関する私の現在の「粗末な」理解は、関数がより「数値的に安定」すると、その出力はその入力のノイズの影響をあまり受けなくなるということです。数値安定性の向上というこの概念を、過剰適合の問題をどのように回避/軽減するかという全体像に関連付けるのが困難です。 私はウィキペディアや他のいくつかの大学のウェブサイトを見てみましたが、彼らはなぜこれがそうなのかを深く説明していません。