リッジ回帰の等価式の証明


15

統計学習で最も人気のある本を読みました

1- 統計学習の要素。

2- 統計学習の紹介

どちらも、リッジ回帰には同等の2つの式があることに言及しています。この結果を理解できる数学的な証拠はありますか?

Cross Validatedも通過しましたが、そこには明確な証拠が見つかりません。

さらに、LASSOは同じタイプの証明を享受しますか?

ここに画像の説明を入力してください



1
なげなわは、リッジ回帰の形式ではありません。
西安

@jeza、私の答えに欠けているものを説明してもらえますか?それは、接続に関するすべてを引き出すことができることを本当に引き出します。
ロイ

@jeza、具体的に教えてください。制約付き問題のラグランジアン概念を知らない限り、簡潔な答えを出すのは難しいです。
-Royi

1
制約付き最適化問題の@jezaは、ラグランジュ関数/ KKT条件の最適化に変換できます(現在の回答で説明されています)。この原則には、インターネット上ですでにさまざまな簡単な説明があります。証拠のさらなる説明はどの方向で必要ですか?ラグランジュ乗数/関数の説明/証明、この問題がラグランジュの方法に関連する最適化のケースである方法の説明/証明、差KKT /ラグランジュ、正則化の原理の説明など?
セクストゥスエンピリカス

回答:


19

古典的なリッジ回帰Tikhonov正則化)は次のように与えられます:

argminx12xy22+λx22

上記の主張は、次の問題が同等であることです。

argminx12xy22subject tox22t

のは、定義しようXを第一の問題との最適解としてX第二の問題の最適解として。x^x~

その等価手段の項t,λ0:x^=x~
つまり、あなたはいつものペアを持つことができますtλ0の問題のようなソリューションが同じです。

どのようにしてペアを見つけることができますか?
さて、問題を解決し、ソリューションのプロパティを確認します。
どちらの問題も凸面で滑らかであるため、物事が簡単になるはずです。

最初の問題の解決策は、勾配が消える点で与えられます。

x^y+2λx^=0

2番目の問題のKKT条件には次のように記載されています。

x~y+2μx~=0

そして

μ(x~22t)=0

最後の式は、μ=0またはx~22=t

2つの基本方程式が同等であることに注意してください。
すなわち、もしX = Xおよびμ = λ両方の式が成り立ちます。 x^=x~μ=λ

それは、その場合の意味だからy22t1本のマスト組μ=0のためにどの手段そのt両方一つの必須のセットと等価であるために十分な大きさλ=0

もう一方のケースでは、μを見つける必要があります。

yt(I+2μI)1(I+2μI)1y=t

これは基本的に x~22=t

μが見つかると、ソリューションが衝突します。

L1(LASSO)の場合、まあ、それは同じ考え方で動作します。
唯一の違いは、解決のために閉じていないため、接続を導出するのが難しいことです。

StackExchange Cross Validated Q291962およびStackExchange Signal Processing Q21730- Basis Pursuit でのλ重要性に関する私の回答をご覧ください

備考
実際に何が起こっていますか?
どちらの問題でも、xy可能な限り近づけようとします。
最初のケースでは、x=yは最初の項(L2距離)を消滅させ、2番目のケースでは目的関数を消滅させます。
違いは、最初のケースでは、そのノルムの制約である壁にぶつかるまで、L2ノルムのバランスを取る必要があることです(txです。λ高く、バランス手段を取得し、あなたは確認する必要がありx小さいです。
2番目の場合、壁があり、x yに近づけますyt)。
壁が十分に大きく(t高い値)、十分にyのノルムに依存する場合、iには意味がありませんλがその値にyのノルムを掛けたものだけが意味を持つようになります。
正確な接続は、上記のラグランジアンによるものです。

資源

今日この論文を見つけました(2019年3月4日):


これは、\ lambdaと\ tが同じであることを意味します。私は証拠でそれを見ることができないからです。ありがとう
-jeza

@jezaとして、私は、上に書いたがあるλ 0(必ずしも等しくないTしかしの関数Tとデータtλ0tt二つの形式の解が同じである)ようにします。y
-Royi

3
@jeza、ここではtはどちらも本質的に無料のパラメーターです。たとえばλを指定すると、特定の最適なソリューションが得られます。ただし、tは無料のパラメーターのままです。そのため、この時点での主張は、同じ最適解をもたらすtの値が存在する可能性があるということです。tがどうあるべきかについて、本質的に制約はありません。t = λ / 2などのように、λの固定関数である必要はありません。λtλtttλt=λ/2
GUNG -復活モニカ

@ Royi、1-数式に(1/2)があるのに、問題の数式にはないのはなぜですか?2- 2つの式の等価性を示すためにKKTを使用していますか?3-はいの場合、私はまだその等価性を見ることができません。確かではありませんが、私が期待するのは、フォーミュラ1 =フォーミュラ2であることを示す証拠です。
ジェザ

1. LSの用語を区別すると、簡単になります。あなたは私の形成移動することができのOPにλを 2倍に。2. 2番目のケースでKKTを使用しました。最初のケースには制約がないため、解決することができます。3.それらの間に閉形式の方程式はありません。ロジックと、それらを接続するグラフを作成する方法を示しました。しかし、私が書いたように、それはyごとに変わりますλλyそれはます(データに依存します)。
ロイ

9

何が起こっているのかを理解するための数学的に厳密ではないが、おそらくより直感的なアプローチは、制約バージョン(問題の式3.42)から開始し、「Lagrange Multiplier」(https://en.wikipedia .org / wiki / Lagrange_multiplierまたはお気に入りの多変数計算テキスト)。計算ではは変数のベクトルですが、この場合はxxxは定数であり、は変数ベクトルであることに注意してください。あなたは(離れて余分を投げた後、最初の方程式(3.41)で終わるラグランジュ乗数法適用たら- λ トン最小化に対して一定であり、無視することができます)。βλt

これはまた、投げ縄やその他の制約に対して機能することを示しています。


8

ラグランジュ双対性と、より広い関係(場合によっては同等)について読むことはおそらく価値があります:

  • 厳しい(つまり不可侵な)制約を受ける最適化
  • 制約に違反した場合の罰則による最適化。

弱い双対性と強い双対性の簡単な紹介

2つの変数の関数があるとします。どんなについてのxyの、我々は持っています:f(x,y)x^y^

minxf(x,y^)f(x^,y^)maxyf(x^,y)

それはいずれかのために保持しているため、XYそれはまた成り立ちます。x^y^

maxyminxf(x,y)minxmaxyf(x,y)

これは弱い双対性として知られています。特定の状況では、強力な二重性もあります(サドルポイントプロパティとも呼ばれます)。

maxyminxf(x,y)=minxmaxyf(x,y)

強力な双対性が成り立つ場合、双対問題を解くことで主問題も解決します。ある意味、同じ問題です!

制約付きリッジ回帰のラグランジアン

関数を次のように定義します。L

L(b,λ)=i=1n(yxib)2+λ(j=1pbj2t)

ラグランジアンの最小-最大解釈

ハード制約を受けるリッジ回帰問題は次のとおりです。

minbmaxλ0L(b,λ)

あなたは選ぶ後にすることを目的、認識し最小限に抑えるためにBが選ばれ、相手が設定されますλあなたが選択した場合は無限にbのようにΣのp個のJ = 1、B 2 、J > トンをbbλbj=1pbj2>t

強い双対性が保持されている場合( Slaterの条件が満たされているためにここで行われます)、順序を逆にすることで同じ結果が得られます。t>0

maxλ0minbL(b,λ)

ここでは、相手が最初に選択します!次に、bを選択して目的を最小化します。既にλの選択がわかっています。Bの LBλ (とら部分λを所与として)あなたのリッジ回帰問題の第2形態に相当します。λ bλminbL(b,λ)λ

ご覧のとおり、これはリッジ回帰特有の結果ではありません。それはより広い概念です。

参照資料

(Rockafellarから読んだ博覧会の後にこの投稿を始めました。)

Rockafellar、RT、凸解析

凸最適化に関するStephen Boyd教授のコースの講義7および8を調べることもできます。


答えは任意の凸関数に拡張できることに注意してください。
81235

6

それらは同等ではありません。

制約付き最小化問題の場合

(1)minbi=1n(yxib)2s.t.j=1pbj2t,b=(b1,...,bp)

対応するラグランジアンを最小化することにより解きますb

(2)Λ==1nyバツb2+λj=1pbj2t

ここで、外因的に与えられる結合され、λ 0は、 Karush-クーン・タッカー非負乗数であり、そして 両方のベータベクトルλは最小化手順によって最適に決定される所与のTtλ0 λ t

OPの投稿でとeq 3.41 を比較すると、リッジ推定量は次の解として得られるようです。 23.41

(3)b{Λ+λt}

であるので関数は、制約付き最小化問題に加え伴わない用語のラグランジュのように見えるが最小化されるbは、確かに二つのアプローチが等価であるように思われます...3b

しかし、これは正しくありません。リッジ回帰では、λ > 0が与えられるとを最小化します。しかし、制約付き最小化問題のレンズでは、仮定λを> 0課した制約が結合した状態、すなわち、そのb λ>0λ>0

j=1pbjrdge2=t

一般的な制約付き最小化問題では、も許可され、基本的には、特別な場合として基本最小二乗推定器(λ = 0)およびリッジ推定器(λ > 0)を含む定式化です。λ=0λ=0λ>0

したがって、2つの定式化は同等ではありません。それでも、Matthew Gunnの投稿は、2つが非常に密接に関連していることを別の非常に直感的な方法で示しています。しかし、二重性は等価ではありません。


@MartijnWeteringsコメントをありがとう、答えを作り直しました。
アレコスパパドプロス

@MartijnWeteringsあなたのコメントに書かれた表現は、私が書き直した投稿で書いた表現とまったく同じであるため、混乱を招くものはわかりません。
アレコスパパドプロス

1
同値は、私には非常に直感的に説明されていた。これは私が念頭に置いていた重複問題だったmath.stackexchange.com/a/336618/466748あなたは二つは等価でないために与えるという議論は、私にだけ二思える、との問題定義(OPの用途はの代わりに、λ > 0を、我々は全く同じように追加することができ制約T < β O L S2 2例除外するためにλ = 0を)。λ0λ>0t<βOLS22λ=0
セクストゥスエンピリカス

@MartijnWeterings AがBの特殊なケースである場合、AはBと同等ではありえません。そして、リッジ回帰は、一般的な制約付き最小化問題の特別なケースです。最後のコメントで)。
アレコスパパドプロス

確かに、リッジ回帰よりも一般的な制約付き最小化問題を定義することもできます(リッジ回帰よりも一般的な正則化問題、たとえば負のリッジ回帰を定義することもできます)が、非等価性はその方法によるものです制約された表現からラグランジアン表現への変換によるものではなく、問題を定義します。2つの形式は、リッジ回帰に役立つ制約付きの定式化/定義(非一般)内で同等と見なすことができます。
セクストゥスエンピリカス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.