ブリッジペナルティとElastic Netの正則化


22

LASSO(L1)やRidge(L2)など、いくつかのペナルティ関数と近似がよく研究されており、これらが回帰でどのように比較されるかがわかります。

βjγγ=1γ=2

Wenjiang [ 1 ]は場合のBridgeペナルティをLASSOと比較しましたが、\ sum \ lambda_ {2として与えられるLASSOとRidgeペナルティの組み合わせであるElastic Net正則化との比較を見つけることができませんでした} \ | \ベータ\ | ^ {2} + \ lambda_ {1} \ | \ベータ\ | _ {1}γ1λ2β2+λ1β1

Elastic Netとこの特定のBridgeには同様の制約形式があるため、これは興味深い質問です。さまざまなメトリックを使用してこれらの単位円を比較します(pミンコフスキー距離の累乗です)。

ミンコフスキー距離の異なるべき乗の単位円

p=1はLASSOに対応し、p=2はリッジに対応し、p=1.4は1つの可能なブリッジに対応します。Elastic Netは、L1およびL2ペナルティーに均等に重み付けして生成されました。これらの数値は、たとえば、スパース性を特定するのに役立ちます(Elastic NetがLASSOから保存している間、Bridgeは明らかに欠けています)。

では、のBridgeは、正則化(スパース性以外)に関してElastic Netとどのように比較されますか?私は教師あり学習に特別な関心を持っているので、おそらく機能の選択/重み付けに関する議論が適切です。幾何学的な議論も歓迎します。1<γ<2

おそらく、もっと重要なのは、この場合、Elastic Netは常に望ましいことでしょうか?


[1]フー、WJ(1998)。ペナルティ回帰:橋対投げ縄。ジャーナルの計算およびグラフィック統計、7(3)、397-416。


編集:この質問がありますどのペナルティ測定値を使用するかを決定するには?LASSO、Ridge、Bridge、Elastic Netに表面的に言及している教科書の一般的なガイドラインや経験則はありませんが、それらを比較する試みはありません。


4
接線方向にのみ関連していますが、ノルムペナルティが係数の独立したラプラス事前分布を持つベイズ回帰のMAP推定値であり、L 2がガウス事前分布と同じである場合、ブリッジペナルティはサブボチン事前分布に相当するのでしょうか? ... stats.stackexchange.com/questions/201038/...L1L2
Sycoraxが復活モニカ言う

@RichardHardyすべての大文字で投げ縄を書く必要はありません。こちらのコメントをご覧ください
アメーバは、モニカーを復活させる

2
ブリッジ回帰では、非凸回帰を与えるが許可されることに注意してください。これらは、特にスパースデータから共変量のグループを選択しようとする場合に特に便利です。または、一般に共変量の事前定義グループを作成し、L 2を特定のグループが大きくならないように正規化し、次にL 1で単一グループ係数を正規化してスパース性を実現します。つまり、あなたが書く場合はβ = 1K私は = β I 1βγ<1L2L1β=(a1,,ak)あなたは何ができるλ1β γ I +λ2ΣIAI ν Iai=(βi1β2βr)λ1βγi+λ2iaiνi
アレックスR.

@AlexR。私は実際にそれは私が参照してくださいクリアすべきであるγ < 1がBridgeと呼ばれることも知りませんでした。γ1γ<1
Firebug

1
@ amoeba、OK、元気。投稿全体で大文字の使用が一貫している場合、通常は編集しませんが、今回は「LASSO」と「lasso」の両方があったため、投稿の最初のフォームである「LASSO」に進みました。私は常に頭字語について考えます。それがすべての大文字を使用した理由です。しかし、あなたが言うように、単純な「投げ縄」の方が良いかもしれません。
リチャードハーディ

回答:


20

ブリッジ回帰とエラスティックネットの違いは、見た目が似ていることを考えると魅力的な質問です。考えられるアプローチの1つを次に示します。ブリッジ回帰問題を解決するとします。その後、エラスティックネットソリューションがどのように異なるかを尋ねることができます。2つの損失関数の勾配を見ると、これについて何かがわかります。

ブリッジ回帰

セイ(独立変数の値を含む行列であるN個の点は、X Dの寸法)を、yは従属変数の値を含むベクトルであり、wは重みベクトルです。Xndyw

損失関数は不利大きさ、重みのノルムをλ Bqλb

Lb(w)=yXw22+λbwqq

損失関数の勾配は次のとおりです。

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)

表すベクトルが得られるアダマール変換(すなわち、要素単位)電源、 I番目の要素であり、V C のIsgn w は符号関数です( wの各要素に適用されます)。qの値によっては、勾配がゼロで未定義になる場合があります。vcivicsgn(w)wq

弾性ネット

損失関数は次のとおりです。

Le(w)=yXw22+λ1w1+λ2w22

これは不利の大きさと重みのノルムλ 1及び2の大きさのノルムλ 2。エラスティックネットペーパーでは、この損失関数を最小化すると、「単純なエラスティックネット」と呼ばれます。彼らは、二重収縮を補償するために後で重みを再調整する改良された手順を説明していますが、私は単純なバージョンを分析するつもりです。それは心に留めておくべき警告です。1λ12λ2

損失関数の勾配は次のとおりです。

wLe(w)=2XT(yXw)+λ1sgn(w)+2λ2w

勾配がゼロときに未定義であるにおける絶対値ので1ペナルティが微分がありません。λ1>01

アプローチ

ブリッジ回帰問題を解く重みを選択するとします。これは、この時点でブリッジ回帰勾配がゼロであることを意味します。w

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)=0

したがって:

2XT(yXw)=λbq|w|(q1)sgn(w)

これをElastic Net Gradientに代入して、でElastic Net Gradientの式を取得できます。幸いなことに、データに直接依存しなくなりました。w

wLe(w)=λ1sgn(w)+2λ2wλbq|w|(q1)sgn(w)

でのエラスティックネットの勾配を見ると、次のことがわかります。ブリッジ回帰が重みw ∗に収束したとすると、エラスティックネットはこれらの重みをどのように変更したいのでしょうか。ww

これは、勾配の反対方向に移動するにつれて勾配が最も急な上昇方向のポイントになり、損失関数が減少するため、目的の変更の局所的な方向と大きさを提供します。勾配は、エラスティックネットソリューションに直接向かない場合があります。弾性純損失関数が凸であるので、しかし、地元の方向/大きさが与えられるいくつかの弾性ネットソリューションは、ブリッジ回帰ソリューションとは異なります方法についての情報を。

ケース1:健全性チェック

)。この場合のブリッジ回帰は、ペナルティの大きさがゼロであるため、通常の最小二乗(OLS)と同等です。理由だけで弾性ネットは、同等のリッジ回帰である2ノルムはペナルティが課されます。次のプロットは、さまざまなブリッジ回帰ソリューションと、それぞれに対するElastic Net Gradientの動作を示しています。λb=0,λ1=0,λ2=12

ここに画像の説明を入力してください

左のプロット:各次元に沿った弾性ネット勾配とブリッジ回帰重み

x軸は、ブリッジ回帰によって選択された重みセットの1つのコンポーネントを表します。y軸は、w で評価された、弾性ネット勾配の対応する成分を表します。ウェイトは多次元ですが、単一のディメンションに沿ったウェイト/グラデーションのみを見ていることに注意してください。ww

右のプロット:回帰回帰の重みを変更するエラスティックネットの変更(2d)

各ポイントは、ブリッジ回帰によって選択された2次元の重みセットを表します。w ∗の各選択に対して、弾性正味勾配と反対の方向を指すベクトルがプロットされ、その大きさは勾配の大きさに比例します。つまり、プロットされたベクトルは、エラスティックネットがブリッジ回帰解をどのように変更したいかを示しています。ww

これらのプロットは、ブリッジ回帰(この場合はOLS)と比較して、エラスティックネット(この場合はリッジ回帰)が重みをゼロに縮小したいことを示しています。希望する収縮量は、重みの大きさとともに増加します。重みがゼロの場合、解は同じです。解釈は、損失関数を減らすために勾配と反対の方向に移動したいというものです。たとえば、ブリッジ回帰がいずれかの重みの正の値に収束したとします。エラスティックネットの勾配はこの時点で正であるため、エラスティックネットはこの重みを減らしたいと考えています。勾配降下を使用する場合、勾配にサイズが比例するステップを実行します(もちろん、ゼロでの微分不可能性のため、技術的に勾配降下を使用して弾性ネットを解決することはできません。

ケース2:マッチングブリッジとエラスティックネット

)。質問の例と一致するように、ブリッジペナルティパラメーターを選択しました。最適なエラスティックネットペナルティが得られるように、エラスティックネットパラメータを選択しました。ここで、最適なマッチング手段は、重みの特定の分布が与えられると、ブリッジとエラスティックネットペナルティ間の予想される2乗差を最小にするエラスティックネットペナルティパラメータを見つけます。q=1.4,λb=1,λ1=0.629,λ2=0.355

minλ1,λ2E[(λ1w1+λ2w22λbwqq)2]

[2,2]

ペナルティサーフェス

q=1.4,λb=100λ1=0.629,λ2=0.355

ここに画像の説明を入力してください

勾配挙動

ここに画像の説明を入力してください

以下を見ることができます。

  • wjj
  • |wj|<0.25
  • If |wj|0.25, the bridge regression and elastic net solutions are the same. But, elastic net wants to move away if the weight differs even slightly.
  • If 0.25<|wj|<1.31、エラスティックネットは重量を増やしたいと考えています。
  • もし |wj|1.31、ブリッジ回帰とエラスティックネットソリューションは同じです。エラスティックネットは、近くの重みからこのポイントに向かって移動したいと考えています。
  • もし |wj|>1.31、エラスティックネットは重量を減らしたいと考えています。

値を変更した場合、結果は定性的に類似しています q および/または λb 対応するベストを見つける λ1λ2。ブリッジとエラスティックネットソリューションが一致する点はわずかに変化しますが、勾配の動作は他の点では類似しています。

ケース3:ブリッジとエラスティックネットの不一致

q=1.8λb=1λ1=0.765λ2=0.225. In this regime, bridge regression behaves similar to ridge regression. I found the best-matching λ1,λ2, but then swapped them so that the elastic net behaves more like lasso (1 penalty greater than 2 penalty).

ここに画像の説明を入力してください

Relative to bridge regression, elastic net wants to shrink small weights toward zero and increase larger weights. There's a single set of weights in each quadrant where the bridge regression and elastic net solutions coincide, but elastic net wants to move away from this point if the weights differ even slightly.

(q=1.2,λb=1,λ1=173,λ2=0.816). In this regime, the bridge penalty is more similar to an 1 penalty (although bridge regression may not produce sparse solutions with q>1, as mentioned in the elastic net paper). I found the best-matching λ1,λ2, but then swapped them so that the elastic net behaves more like ridge regression (2 penalty greater than 1 penalty).

ここに画像の説明を入力してください

Relative to bridge regression, elastic net wants to grow small weights and shrink larger weights. There's a point in each quadrant where the bridge regression and elastic net solutions coincide, and elastic net wants to move toward these weights from neighboring points.


3
(+1)すばらしい答え、努力に感謝します!最後に、「Elastic Netの方が常に望ましいですか?」長くする必要はありません。
Firebug

6
ブリッジ回帰とエラスティックネットは、重みの異なる種類の事前分布を使用したMAP推定と同等です。この観点から、データ生成プロセスによりよく一致する事前選択がより適切であるように思われ、いずれの方法もすべての場合においてより適切ではない可能性があります。
user20160

2
+6、とてもいい答え。あなたの上記のコメントに関して:ブリッジ回帰の前の利回りは何ですか?ガウス事前分布は、なげなわ前の隆線とラプラスに対応することを知っています。弾性ネットに対応する何かを得るために、これらの事前分布を何らかの形で組み合わせることはできますか?
アメーバは、モニカを復活させる

2
@amoeba質問は私に向けられたものではなかったが、GeneralAbrialが質問で言ったように、ブリッジはおそらくSubbotin以前に対応している。弾性ネットは、予想通り、ガウスとラプラシアンの間にあります。Li、Q.、&Lin、N.(2010)を 参照してくださいベイジアン弾性ネット。 ベイジアン分析、5(1)、151-170。およびZou、H.、&Hastie、T.(2005)。 エラスティックネットによる正則化と変数の選択。 Journal of the Royal Statistical Society:Series B(Statistical Methodology)、67(2)、301-320。エラスティックネットとブリッジ回帰の簡単な比較。
Firebug

2
@amoebaは、PCA対非線形次元削減に関する他の投稿についても同様に、この投稿に賞賛と関心を寄せてくれたことに感謝します。他の人の質問/回答を宣伝するためにあなたの担当者を使用することは素晴らしいことであり、この投稿が少なくとも人々にとって価値のあるものであるなら、私はうれしく思います。その他、親切な言葉にも感謝します。
user20160
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.