リッジ回帰の文脈におけるラグランジアン緩和


15

「統計的学習の要素」(第2版)p63で、著者はリッジ回帰問題の次の2つの定式化を示しています。

β^ridge=argminβ{i=1N(yiβ0j=1pxijβj)2+λj=1pβj2}

そして

β^ridge=argminβi=1N(yiβ0j=1pxijβj)2, subject to j=1pβj2t.

この2つは同等であり、パラメーターと間には1対1の対応があると主張されています。λt

最初の定式化は2番目の定式化のラグランジアン緩和であると思われます。しかし、ラグランジアンリラクゼーションがどのように、またはなぜ機能するのか、直感的に理解できたことはありません。

2つの定式化が実際に同等であることを示す簡単な方法はありますか?選択する必要がある場合は、厳密さよりも直感を好むでしょう。

ありがとう。


単に直感的な説明が必要な場合は、このビデオの 1.03.26に(最後まで)行き、制約が目的関数にどのように関連するかについての直感的な説明があります。
user603

回答:


3

エンベロープ定理を使用すると、対応を最も簡単に表示できます。

まず、標準ラグランジアンには追加の項があります。を与えられたとおりに扱っているだけなら、これは最大化の問題に影響を与えないので、Hastieらはそれをやめました。λtλ

ここで、完全なラグランジアンをに関して微分すると、エンベロープ定理は、最大であるため、を介したの間接効果を無視できると言います。残るのは、からのラグランジュです。ttβλt

しかし、これは直感的に何を意味しますか?制約は最大でバインドするため、最大で評価されるラグランジアンの導関数は、元の目的の導関数と同じです。したがって、ラグランジュ乗数は、を増やすことによって制約を緩和するシャドウ価格(目的に関する値)を与えます。t

私はこれがHastieらの対応だと思います。を参照しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.