対角線に定数を追加することで、尾根の推定がOLSよりも良くなるのはなぜですか?


59

リッジ回帰推定値は、残差平方和とサイズのペナルティを最小化することを理解していますββ

βridge=(λID+XX)1Xy=argmin[RSS+λβ22]

ただし、X'Xの対角に小さな定数を追加するだけでは、βridge\ beta_ \ text {OLS}と異なるという事実の重要性を完全には理解していません。確かに、βOLSXX

βOLS=(XX)1Xy
  1. 私の本では、これにより推定が数値的により安定になると述べていますが、なぜですか?

  2. 数値安定性は、リッジ推定値の0方向への収縮に関連していますか、それとも単なる偶然ですか?

回答:


76

ペナルティのない回帰では、パラメーター空間でリッジ*を得ることができます。この場合、リッジに沿った多くの異なる値がすべて最小二乗基準でも同様にまたはほぼ同様になります。

*(少なくとも、尤度関数の尾根です-実際にはRSS基準では $ ですが、これは従来のように見えるため、尾根と呼び続けます-または、Alexisが指し示すようにコメントでは、私はそれをthalwegと呼ぶことができ、谷の尾根の対応物である)

パラメーター空間の最小二乗基準にリッジが存在する場合、パラメーターが原点から離れるにつれて基準を押し上げることにより、リッジ回帰で得られるペナルティーはそれらのリッジを取り除きます。

ここに画像の説明を入力してください
[より鮮明な画像 ]

最初のプロットでは、パラメーター値の(尾根に沿った)大きな変化により、RSS基準にわずかな変化が生じます。これにより、数値が不安定になる可能性があります。小さな変更(データ値の小さな変更、切り捨てや丸め誤差など)に非常に敏感です。パラメーター推定値はほぼ完全に相関しています。非常に大きなパラメーター推定値を取得する場合があります。

対照的に、パラメーターが0から遠い場合にリッジ回帰が最小化するものを持ち上げることにより(ペナルティを追加することにより)、条件の小さな変化(小さな丸め誤差や切り捨て誤差など)は結果の大きな変化を生成できません見積り。ペナルティ項により、0に向かって収縮します(結果的にバイアスが生じます)。わずかな偏りで、分散を大幅に改善できます(その尾根をなくすことにより)。L2

推定値の不確実性が低減されます(標準誤差は、ペナルティにより大きくなる2次導関数に反比例します)。

パラメーター推定値の相関が減少します。小さいパラメーターのRSSがそれほど悪くない場合、大きさが非常に大きいパラメーター推定値を取得できなくなります。


4
この答えは、収縮と数値安定性を理解するのに本当に役立ちます。ただし、「小さな定数を追加する」ことでこれら2つのことがどのように達成されるかについては、まだわかりません。XX
ハイゼンベルグ14年

4
対角線*に定数を追加することは、を中心とする円形放物面をRSSに追加することと同じです(上記の結果-ゼロから離れて「プルアップ」-リッジを除去します)。 *(必ずしも小さいわけではありません。見方や追加量によって異なります)0
Glen_b 14年

6
Glen_bあなたが探している英語の「リッジ」の反意語(谷の床に沿った小道/曲線)はthalwegです。これは約2週間前に学んだことで、ただ崇拝します。英語の単語のようにも聞こえません!:D
アレクシス

5
@Alexisそれは間違いなく便利な言葉なので、ありがとう。それはドイツ語で(確かだので、それはおそらく、英語が聞こえないタール(Thal)は同じ「のように「タール(Thal)」ですネアンデルタール」=「ネアンダーの谷」、およびWEGは =「道」)。[実際、「リッジ」が欲しかったのは、それを何と呼ぶか​​考えられなかったからではなく、人々が可能性やRSSのどちらを見ていてもリッジと呼んでいるようだからです。奇妙に思えても、慣習。Thalwegは、慣習の奇妙なthalwegに従わなかったなら、ちょうどいい言葉に最適の選択でしょう。]
Glen_b 14年

4
Xはないフルランクの行列に近くなる(ひいてはX'Xはほぼ特異なります)を正確に稜線が可能性に表示されたとき。リッジは、列間のほぼ線形の関係の直接的な結果であり、(ほぼ)線形に依存させます。Xβ
Glen_b 14年

28

Glen_bのイラストと統計がRidge推定量についてコメントしている+1。OPの質問1)および2)に答えるRidge回帰に純粋に数学的な(線形代数)povを追加したいと思います。

最初に、は対称正半正行列- サンプル共分散行列の倍であることに注意してください。したがって、固有分解を持ちますXXp×pn

XX=VDV,D=[d1dp],di0

マトリックスの反転は固有値の反転に対応するため、OLS推定器には(ことに注意してください)。明らかに、これはすべての固有値が厳密にゼロより大きく、場合にのみ機能し。以下のため、これは不可能です。以下のため、それは一般的に真である-これは我々が通常と懸念しているし、ある多重共(XX)1=VD1VV=V1di>0pnnp

統計学者として、データ小さな摂動が推定値をどのように変えるかを知りたいです。任意の小さな変化することが明らかである巨大な変化につながる場合非常に小さいです。Xdi1/didi

したがって、リッジ回帰では、すべての固有値をゼロからさらに遠ざけます。

XX+λIp=VDV+λIp=VDV+λVV=V(D+λIp)V,
これは固有値持ち。正のペナルティパラメーターを選択すると、行列が可逆になります(場合でも)。Ridge回帰の場合、データわずかな変動は、マトリックスの反転に対して極端に不安定な影響を与えなくなります。di+λλ0pnX

数値安定性は、それらの両方が固有値に正の定数を追加することの結果であるようにゼロに収縮するために関連している:それは中の小さな摂動ので、それをより安定させあまりにも多くの逆を変更しません。それに近いこと収縮今ので、用語が乗算され逆固有値とOLS溶液よりもゼロに近い。X0V1Xy1/(di+λ)1/d


2
これは私の質問の代数部分に十分に答えます!Glen_bの回答と一緒に、問題の完全な説明を行います。
ハイゼンベルク

17

@Glen_bのデモンストレーションは素晴らしいです。問題の正確な原因と2次ペナルティ付き回帰がどのように機能するかについての説明とは別に、ペナルティはインターセプト以外の係数をゼロに縮小する正味の効果があるというボトムラインがあります。これにより、パラメーターの推定数との関係でサンプルサイズが大きくない場合、ほとんどの回帰分析に固有の過剰適合の問題に対する直接的な解決策が提供されます。インターセプト以外の場合、ほぼゼロのペナルティはペナルティのないモデルよりも予測精度を改善します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.