回答:
ペナルティのない回帰では、パラメーター空間でリッジ*を得ることができます。この場合、リッジに沿った多くの異なる値がすべて最小二乗基準でも同様にまたはほぼ同様になります。
*(少なくとも、尤度関数の尾根です-実際にはRSS基準では谷 $ ですが、これは従来のように見えるため、尾根と呼び続けます-または、Alexisが指し示すようにコメントでは、私はそれをthalwegと呼ぶことができ、谷の尾根の対応物である)
パラメーター空間の最小二乗基準にリッジが存在する場合、パラメーターが原点から離れるにつれて基準を押し上げることにより、リッジ回帰で得られるペナルティーはそれらのリッジを取り除きます。
[より鮮明な画像 ]
最初のプロットでは、パラメーター値の(尾根に沿った)大きな変化により、RSS基準にわずかな変化が生じます。これにより、数値が不安定になる可能性があります。小さな変更(データ値の小さな変更、切り捨てや丸め誤差など)に非常に敏感です。パラメーター推定値はほぼ完全に相関しています。非常に大きなパラメーター推定値を取得する場合があります。
対照的に、パラメーターが0から遠い場合にリッジ回帰が最小化するものを持ち上げることにより(ペナルティを追加することにより)、条件の小さな変化(小さな丸め誤差や切り捨て誤差など)は結果の大きな変化を生成できません見積り。ペナルティ項により、0に向かって収縮します(結果的にバイアスが生じます)。わずかな偏りで、分散を大幅に改善できます(その尾根をなくすことにより)。
推定値の不確実性が低減されます(標準誤差は、ペナルティにより大きくなる2次導関数に反比例します)。
パラメーター推定値の相関が減少します。小さいパラメーターのRSSがそれほど悪くない場合、大きさが非常に大きいパラメーター推定値を取得できなくなります。
Glen_bのイラストと統計がRidge推定量についてコメントしている+1。OPの質問1)および2)に答えるRidge回帰に純粋に数学的な(線形代数)povを追加したいと思います。
最初に、は対称正半正行列- サンプル共分散行列の倍であることに注意してください。したがって、固有分解を持ちます
マトリックスの反転は固有値の反転に対応するため、OLS推定器には(ことに注意してください)。明らかに、これはすべての固有値が厳密にゼロより大きく、場合にのみ機能し。以下のため、これは不可能です。以下のため、それは一般的に真である-これは我々が通常と懸念しているし、ある多重共。
統計学者として、データ小さな摂動が推定値をどのように変えるかを知りたいです。任意の小さな変化することが明らかである巨大な変化につながる場合非常に小さいです。
したがって、リッジ回帰では、すべての固有値をゼロからさらに遠ざけます。
数値安定性は、それらの両方が固有値に正の定数を追加することの結果であるようにゼロに収縮するために関連している:それは中の小さな摂動ので、それをより安定させあまりにも多くの逆を変更しません。それに近いこと収縮今ので、用語が乗算され逆固有値とOLS溶液よりもゼロに近い。