リッジ回帰ソリューションの導出方法


40

リッジ回帰の解の導出にいくつかの問題があります。

正則化用語のない回帰ソリューションを知っています:

β=(XTX)1XTy.

λβ22

β=(XTX+λI)1XTy.

回答:


23

ペナルティを追加して損失関数を変更するだけで十分です。行列の項では、初期の2次損失関数は に関して導出すると、通常の方程式 になり、リッジ推定量になります。

(YXβ)T(YXβ)+λβTβ.
β
XTY=(XTX+λI)β

1
どうしての導関数がと等しいのかλβTβλIβ
ユーザー34790

4
@ user34790そうではありません。等しい。しかし、2は他の条件で同様の2でキャンセルされます。もちろん、ファクターは「通常の」代数の1のファクターのようなもので、何も変更せずに好きな場所で乗算できます。2λβI
ビル

4
@bill:ここにあなたが必要とする添加すると、で動作しますので、正確な次元の行列を取得するために、:単なるスカラーであるX T X λIXTXλ
ヘンリー

47

レッツ・私たちが知っていることで、ビルド、いつでもということであるモデル行列である、応答 -ベクトルであり、およびパラメータ -ベクトルである、目的関数X N Y のp βn×pXnypβ

f(β)=(yXβ)(yXβ)

(残差の二乗和)は、が正規方程式を解くときに最小化されますβ

(XX)β=Xy.

リッジ回帰は、目的関数に別の用語を追加し(通常、すべての変数を標準化して共通の基盤に配置した後)、最小化するよう求めます。

(yXβ)(yXβ)+λββ

負でない定数。これは、残差の二乗和に係数自体の二乗和の倍数を加えたものです(グローバル最小値を持っていることが明らかです)。ので、それが正の平方根あり。λ 0 ν 2 = λλλ0ν2=λ

行列考えてみましょに対応する行で拡張回単位行列:ν P × P IXνp×pI

X=(XνI)

ベクトルが末尾にゼロで同様に拡張される場合、目的関数の行列積はの形式の追加項を追加します。元の目的に。だからPのY * P 0 - ν β I 2 = λ β 2 Iypyp(0νβi)2=λβi2

(yXβ)(yXβ)=(yXβ)(yXβ)+λββ.

左側の式の形式から、正規方程式は次のようになります

(XX)β=Xy.

の末尾にゼロを隣接させたため、右側はと同じです。左側では、元のにが追加されます。したがって、新しい正規方程式は、X " Y ν 2 I = λ I X " XyXyν2I=λIXX

(XX+λI)β=Xy.

概念的に経済的であることに加えて、この結果を導き出すために新しい操作は必要ありません。計算的にも経済的です。通常の最小二乗を行うソフトウェアは、何も変更することなくリッジ回帰を行います。 (それにもかかわらず、この目的のために設計されたソフトウェアを使用すると、大きな問題で役立つ可能性があります。これは、の特別な構造を活用して、密集した間隔で結果を効率的に取得し、回答の変化を調べることができるためです。) λ λXλλ

このような物事の見方のもう1つの利点は、それがどのように尾根回帰を理解するのに役立つかです。回帰を実際に理解したい場合、幾何学的に考えるのがほとんど常に役立ちますの列は、次元実ベクトル空間のベクトルを構成します。隣接によってにからそれらを延長することにより、に-vectors -vectorsを、我々は埋め込む大きなスペースにを含むことにより「想像上の」相互に直交する方向。の最初の列P N ν I X N のn + p個のR nはRXpnνIXnn+pRn PXνP P 番目 ννPν0Rn+ppXは、サイズ小さな虚数成分を与えられ、それにより、それを長くし、元の列によって生成されたスペースから移動します。第二は、第三の、...、列が同様に長く、同じ量だけ元の空間から移動されている - 異なる新たな方向ではなく、すべての。 したがって、元の列に存在する共線性はすぐに解決されます。さらに、が大きくなるほど、これらの新しいベクトルが個々の近づくνppthννp想像上の方向:それらはますます正規直交になります。その結果、正規方程式の解はすぐに可能になり、がから増加するにつれて数値的に安定し。ν0

このプロセスの説明は、 Ridge Regressionが処理するように設計された問題に対処するための斬新で創造的なアプローチを示唆しています。例えば、いかなる手段を使って(そのように彼らの1980本でBelsley、KUH、およびウェルシュによって記述分散分解として回帰診断、第3章)、あなたは、ほぼ同一直線上の列のサブグループを識別することができるかもしれない、どこ各サブグループを他とほぼ直交しています。あなただけの多くの行として付け加える必要がある(にとゼロを離れた兄弟からのグループの各要素を移動させるための1の新しい「虚」の次元を捧げる最大のグループ内の要素が存在するとして):あなたは必要としない架空のこれを行うための寸法。X y pXXyp


2
この本の最後の著者は、ウェールズではなくウェールシュです。
マークL.ストーン

1
おっと、これは私の心を吹き飛ばしました。これが線形モデルの外で一般化された場合、つまりglmの場合に何が起こるかについての議論はありますか?ペナルティは、リッジ回帰と同じになるべきではありません...しかし、この解釈は、潜在的な有用な推定量であることを意味します!
クリフAB

2
@Cliffそれは非常に興味深い提案です。ただし、GLMの推定はより複雑な方法で依存し、その推定量はOLSの場合のようにの形式で通常は因数分解できないため( and)、ペナルティ関数を課すこととの列を変更することの間に有用な関係を確立することは難しいかもしれません。特に、これを機能させるためにの値をどのように増やす必要があるかは不明です。β = G X H Y 、G X X
β^=g(X)h(y)
H Y = Y X Ygバツ=バツバツ1バツhy=yバツy
whuber

1
はい、ペナルティが何であるかを確立するためにいくつかの考えが必要になりますが、私はそれについてそれほど心配していません。使用するのアイデアも一般に簡単ではありません...おそらく2つの追加できるロジスティック回帰の場合を除きます。0の1つと1の1つ。この拡張は、「+ 2二項推定器」のより一般的なバージョンになります(この推定器には、基本的な事後平均を使用して二項分布からを推定するときに使用するより適切な名前があります)一様な事前分布をもつ推定値)。y py ypp
クリフAB

@マーク訂正していただきありがとうございます。あなたは私が記憶から行っていたと言うことができます... :-)。
whuber

20

導出には行列計算が含まれますが、これは非常に面倒です。次の問題を解決したいと思います:

βYβTバツTYβTバツ+λβTβ

今なお および 一緒に、一次条件に到達し を 分離すると解が得られます: λβTβ

YβTバツTYβTバツβ=2バツTYβTバツ
XTY=XTXβ+λβββ=XTX+λI-1XTY
λβTββ=2λβ
バツTY=バツTバツβ+λβ
β
β=バツTバツ+λ1バツTY

9

私は最近、P-スプラインのコンテキストで同じ質問に出くわしました。概念は同じなので、リッジ推定量の導出に関するより詳細な答えを出したいと思います。

最後の被告のペナルティ項によって、古典的なOLS基準関数とは異なるペナルティ付き基準関数から始めます。

CrteronRdge==1nyバツTβ2+λj=1pβj2

どこで

  • p=モデルで使用される共変数の量
  • バツTβ=標準線形予測子
  • 最初の加数は、通常どおり最小化するMSE(実際の値からの予測の二乗発散)を表します
  • 2番目の被加数は、係数に適用されるペナルティを表します。ここでは、ユークリッド距離測定を意味するリッジコンテキストにあるため、罰則期間の次数は2です。Lasso-Penalizationの場合、次数1を適用し、まったく異なる推定量を生成します。

この基準を行列表記で書き直し、さらに分解することができます。

CrteronRdge=yバツβTyバツβ+λβTβ

=yTyβTバツTyyTバツβ+βTバツTバツβ+λβTβ

=yTyβTバツTyβTバツTy+βTバツTバツβ+βTλβ と単位行列であります

=yTy2βTバツTy+βTバツTバツ+λβ

次に、基準を最小化するを検索します。とりわけ、行列微分規則を使用します。ここにとして適用します。 βバツTAバツバツ=A+ATバツ=対称2AバツバツTバツ+λRn×n

CrteronRdgeβ=2バツTy+2バツTバツ+λβ=0

バツTバツ+λβ=バツTy

その他β^=バツTバツ+λ1バツTy


@ Jahn、がなった経緯を説明してください。ちょうど転置を適用したと思います。ただし、すべての方程式に適用せずに、1つの項に転置を適用することはできません。ここで何が欠けていますか?
yTバツβ
βTバツTy
理論家

1
@theateist転置されたスカラーは同じスカラーです。
コンスタンチン

2

与えられた答えに欠けているいくつかの重要なことがあります。

  1. の解は、1次の必要条件から導出されます。は、。しかし、これで十分ですか?つまり、解は、が厳密に凸である場合にのみ、グローバルな最小値になります。これは真実であることが示されます。βfrdgeβλβ=0β=バツTバツ+λ1バツTYfrdgeβλ

  2. 問題を見る別の方法は、と制約されます。OLSはOrdinary Least Squaresの略です。この観点から、は、凸関数制約された凸目的関数のグローバル最小値を見つけるために使用されるラグランジュ関数です。。frdgeβλfOLSβ=YβTバツTYβTバツ||β||22tfrdgeβλfOLSβ||β||22

これらのポイントとの派生の適切な説明は、次のすばらしい講義ノートにあります:http : //math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdfβ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.