リッジとLASSOの基準


12

この投稿はこれに続きます:対角線に定数を追加することにより、隆起推定がOLSよりも優れているのはなぜですか?

これが私の質問です:

私の知る限り、リッジの正則化はノルム(ユークリッド距離)を使用します。しかし、なぜこの基準の2乗を使用するのですか?(を直接適用すると、ベータ2乗の合計の平方根になります)。222

比較として、正規化にを使用するLASSOではこれを行いません。しかし、これは「実際の」ノルムです(ベータ絶対値の2乗の合計であり、この合計の2乗ではありません)。111

誰かが私を明確にするのを手伝ってくれる?


2
リッジ回帰のペナルティ項は、L2ノルムの2乗です。例としてTibshiraniが作成したこれらのスライドを参照してください(スライド7)stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdfこちらも参照してくださいen.wikipedia.org/wiki/Tikhonov_regularization
boscovich

明確化の小さなポイント、これらはロブではなくライアン・ティブシラニからのスライドです。
Ellis Valentiner

わかりやすく説明してくれてありがとう。しかし、なぜL2では二乗され、L1では二乗されないのか理解できません。正則化のための一般的な公式はありませんか?
PLOTZ 2014年

@ user12202013:指摘いただきありがとうございます。気づかなかった。
boscovich 2014年

回答:


9

リッジ投げ縄は、正則化と回帰の2つの方法です。投げ縄回帰は、絶対係数の合計に制約を課します。

iβi2=||β||1

リッジ回帰は、差の2乗の合計に制約を課します。

iβi2=iβi22=||βi||22

さらに別の基準、つまり係数のユークリッド長を導入することを提案しました。

iβi2=||βi||2

リッジ回帰とユークリッド長の違いは2乗です。これは正則化の解釈を変えます。リッジとユークリッドの長さはどちらもゼロに向かって正則化しますが、リッジ回帰は正則化の量も異なります。ゼロから遠い係数はゼロに向かって強く引きます。これにより、正則化がゼロ付近で徐々に変化するため、ゼロ付近でより安定します。これは、ユークリッド長の場合、または実際のラッソ回帰の場合には当てはまりません。


7

現在、さまざまなペナルティ機能(リッジ、ラッソ、MCP、SCAD)のすべての種類を持つペナルティ付きアプローチがたくさんあります。なぜ特定の形式の1つであるかという問題は、基本的には「そのようなペナルティはどのような長所/短所を提供するのですか?」です。

関心のあるプロパティは次のとおりです。

1)ほぼ不偏の推定量(すべてのペナルティ付き推定量がバイアスされることに注意してください)

2)スパース性(リッジ回帰はスパースな結果を生成しないことに注意してください。つまり、係数はゼロまで完全に縮小されません)

3)継続性(モデル予測の不安定性を回避するため)

これらは、ペナルティ関数に関心のあるプロパティのほんの一部です。

微分と理論的な作業で合計を処理する方がはるかに簡単です:例 and。または想像してください。(一貫性、漸近的正規性などの理論的な結果を示すために必要な)デリバティブを取ることは、そのようなペナルティを伴う苦痛でしょう。| | β | | 1 = | β I | ||β||22=|βi|2||β||1=|βi|Σ|βI|2(|βi|2)(|βi|)2


わかりました、ありがとう。しかし、なぜL2に対して二乗し、L1に対して二乗しないのですか?正則化のための一般的な公式はありませんか?これは私を困惑させています...
PLOTZ 2014年

@PLOTZ私は私の答えに少し追加しました。
bdeonovic 2014年

ベンジャミンに感謝します!確かに今はもっとはっきりしています!私はあなたの答えの前にこの理論的な目的を理解していませんでした。回答ありがとうございます。
PLOTZ 2014年

@Benjamin:ポイント#1では、「(あなたが実際に意味したではないすべて罰せ推定量は公平になりますか)」?リッジ回帰–例を挙げると–は偏っています。
boscovich 2014年

おっと、それをキャッチしてくれてありがとう!実際、ペナルティを課されたすべての推定者にはバイアスがかかると思います。
bdeonovic 2014年

5

実際には、との2乗の両方が同じクラスの正則化に由来します:場合、。121βppp>0

リッジ回帰はとLassoを使用していますが、他の値を使用することもできます。p=2p=1p

たとえば、あなたは、スパースのすべての値のためのソリューション持ち、およびより小さな値まばらなソリューションを。p1p

値の場合、目的がスムーズではなくなるため、最適化が難しくなります。以下のため目的は、非凸であるので、最適化はさらに困難...p1p<1


2

ここにはさらに簡単な答えがあると思いますが、技術が開発されたときに「なぜ」の質問に答えることは常に困難です。正則化項を簡単に区別できるように、二乗されたノルムが使用されます。リッジ回帰は最小化します:l2

yXβ22+λβ22

どちらでも記述できます:

yXβ22+λβTβ

これは、閉じた形式のソリューションを取得するためにwrtで簡単に区別できます。β

β^ridge=(XTX+λI)1XTy

そこからあらゆる種類の推論を導き出すことができます。


1

ノルムの2乗(つまり、リッジ回帰)と未変更のノルムの使用のもう1つの重要な違いを考慮してくださいでのノルムの導関数、は、でによって与えられます。ため、ゼロベクトルでは微分できません。つまり、ノルムは投げ縄のように個々の変数を選択しませんが、理論上、最大のペナルティ付き尤度の解としてを生成できます。 2乗する222x||x||2xx||x||22β=02 ペナルティの規範として、リッジタイプのペナルティはどこでも区別可能であり、そのようなソリューションを生み出すことはできません。

この動作は、正確に(私の理解により)グループなげなわ(YuanとLin)とスパースなグループなげなわ(Simonなど)などが、正方形ではなくノルム(係数の事前指定されたサブセット上)を使用する理由です。規範。22

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.