回帰におけるリッジ正則化の解釈


25

最小二乗コンテキストでのリッジペナルティに関していくつかの質問があります。

βridge=(λID+XX)1Xy

1)この式は、Xの共分散行列が対角行列に向かって縮小されることを示唆しています。これは、(変数が手順の前に標準化されると仮定して)入力変数間の相関が低下することを意味します。この解釈は正しいですか?

2)それは収縮アプリケーションである場合、なぜそれが線で処方されていない(λID+(1λ)XX)我々が何らかの形で正規化して[0,1]の範囲にラムダを制限することができると仮定すると、。

3)[0,1]のような標準範囲に制限できるように、正規化λできるもの。

4)対角線に定数を追加すると、すべての固有値に影響します。特異値または特異値に近い値のみを攻撃する方が良いでしょうか?これは、PCAをXに適用し、回帰の前に上位N主成分を保持するのと同じですか、または異なる名前を持っていますか(相互共分散計算を変更しないため)?

5)我々は、クロス共分散を正則化することも、意味、任意の用途を有するない

βridge=(λID+XX)1(γXy)

ここで、小さなγは相互共分散を低下させます。これは明らかにすべてのβ等しく低下させますが、おそらく共分散値に応じてハード/ソフトしきい値処理などのよりスマートな方法があります。


IIRCリッジペナルティはないという制約から来る MSE目的関数のラグランジュ乗数の方法により、。LASSOは同じですが、と| β | 代わりに。私は自分の携帯電話にいるので、現時点では簡単に派生を投稿することはできません。しかし、これらは素晴らしい質問ですβ2T|β|
shadowtalker

回答:


19

良い質問です!

  1. はい、これは正確に正しいです。多くの予測変数が高度に相関している場合に発生する多重共線性問題に対処するための1つの可能な方法として、リッジペナルティを見ることができます。リッジペナルティを導入すると、これらの相関が効果的に低下します。

  2. :私は、これは、部分的伝統、あなたの最初の式で述べたようにリッジ回帰式は、以下のコスト関数から、以下のことを、部分的事実だと思う場合λ = 0、第二項は廃棄、およびのための標準的なOLSの式に最初の用語(「復元誤差」)リードを最小限にすることができますβ。ための式に第2項のリードを維持β R iはdのグラムEを

    L=yXβ2+λβ2.
    λ=0ββridge。このコスト関数は数学的に処理するのに非常に便利であり、これが「正規化されていない」ラムダを好む理由の1つかもしれません。
  3. 正規化する1つの可能な方法総分散することにより、それをスケーリングするのT RXXを使用すること、すなわち、λ T RXXの代わりに、λを。これは、必ずしも希望閉じ込めるλ[ 0 1 ]、それ「次元」になるだろうし、おそらく最適につながるλ未満であること1すべての実用的な例では(NB:これは単なる推測です!)。λtr(XX)λtr(XX)λλ[0,1]λ1

  4. 「小さな固有値のみを攻撃する」には別の名前があり、主成分回帰と呼ばれます。PCRとリッジ回帰の関係は、PCRでは事実上、特定の数の後にすべての固有値をカットする「ステップペナルティ」がありますが、リッジ回帰は「ソフトペナルティ」を適用し、すべての固有値にペナルティを課します。これは、Hastie et al。による統計学習の要素でうまく説明されています。(オンラインで無料で入手可能)、セクション3.4.1。リッジ回帰とPCA回帰の関係の私の回答も参照してください。

  5. 私はこれが行わ見られませんが、あなたがフォームでコスト関数を考慮することができることを注目すべきことがないこれはあなたの縮小βをゼロにないが、他のいくつかの事前定義された値にβ 0を。数学うち1つの作品の場合は、最適に到着するβによって与えられたβ = XX + λ I - 1XY

    L=yXβ2+λββ02.
    ββ0βおそらく「相互共分散を正則」として見ることができますか?
    β=(XX+λI)1(Xy+λβ0),

1
追加するなぜあなたは説明できX "のXの共分散行列という手段Xは対角行列に向かって収縮させますか?これは、純粋に線形の代数問題だと思います。λIDXXX
ハイゼンベルク14

3
@Heisenbergは、よく、の共分散行列であり、X(最大1 / Nのスケーリング因子)。βを計算するには、この共分散行列を反転する必要があります。リッジ回帰では、我々反転X X + λ Iの代わりに、1が見ることができるようにX X + λ Iを共分散行列の正則化推定値として。今、用語λ Iは対角行列であるλ対角線上に。λが非常に大きいと想像してください。合計は対角項λによって支配されますXXX1/NβXX+λIXX+λIλIλλですので、正則化された共分散は、 λが大きくなるにつれてますます対角になります。λIλ
アメーバは、モニカーを復活させる14

wrt Q5、統計学習の要素は、画像処理アプリケーションの平滑性制約を調べます(PDA-447ページ)
seanv507

10

質問4についてのコメント。実際、リッジ回帰は小さな固有値をかなり効果的に処理しますが、ほとんどの場合、大きな固有値はそのままにします。 XTX

これを確認するには、リッジ回帰推定量を特異値分解に関して表現します。 X

X=i=1nσiuiviT

uiviXTXσi2i=1,2,,n

その後、あなたはそれを示すことができます

βridge=i=1nσi2σi2+λ1σi(uiTy)vi.

σi2/(σi2+λ)λ=0λ>0σi2λσi2λ、この因子が本質的に0であるものに対応しつつ、小さな固有値に対応する用語が効果的にドロップアウトより大きな固有値が保持されます。

これに対して、主成分回帰では、この式で1(より大きい固有値の場合)または0(ドロップされる小さい固有値の場合)の係数を使用するだけです。


1
これはまさに私の答えで簡単に言及したものですが、数学的に詳しく説明し、+ 1することは非常に素晴らしいことです。
アメーバは、モニカを復活させる14

5

XX

λx+y=κ(αx+(1α)y),
α=λ1+λκ=1+λ0λ<+0<α1

「特異値または近特異値のみを攻撃する」と説明する手法は、特異スペクトル分析(線形回帰の目的)としても知られています(式19を参照)。 「。相互共分散は変更されていません。

X


ありがとうございました。PCRでは、次元の縮小が実行された後にyとの共分散が計算されますか?それはPCRとSSAの違いですか?ガンマ(私のものではありません)、アルファを[0,1]に制限するように選択する方法
カグダスオズゲンク14

1
γκ

SSAとPCRの違いについては正しいと思いますが、確かに書き留めておく必要があります。
ビンセントギレモット14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.