制約付き対ペナルティ付きとしてのリッジ回帰の定式化:それらはどのように同等ですか?


10

私はさまざまな場所で見た線形回帰法についての主張を誤解しているようです。問題のパラメーターは次のとおりです。

入力:

Nそれぞれ「応答」量と 「予測」量から構成される量のデータサンプルp+1yipxij

望ましい結果は「良好な線形適合」であり、これは予測子に基づいて応答を予測し、良好な適合は予測と観測された応答(他の基準の中で)との間にわずかな違いがあります。

出力:係数 whereは、予測変数から応答量を予測するための「適切な適合」です。 p+1βjβ0+j=1pxijβj

この問題に対する "リッジ回帰"アプローチについて混乱しています。Hastie、Tibshirani、およびFriedmanの63ページの「Elements of Statistical Learning」では、リッジ回帰が2つの方法で定式化されています。

まず、制約付き最適化問題として:

P Σ J = 1 β 2 IT

argminβi=1N(yi(β0+j=1p(xijβj)))2
制約を受ける いくつかの正のパラメータt。
j=1pβi2t

2つ目は、ペナルティ付きの最適化問題です: 、いくつかの正のパラメータです。 λ

argminβ(λj=1pβj2)+i=1N(yi(β0+j=1p(xijβj)))2
λ

テキストは、これらの定式化は同等であり、「パラメーターと間には1対1の対応がある」と述べています。私はこの主張(および同様の主張)をこの本に加えていくつかの場所で見ました。私はそれを理解しているので、配合がどのように同等であるかを見ていないので、私は何かが足りないと思います。トンλt

および、、および、の場合を考えます。パラメータ選択する と、制約付き定式化は次のようになります。、P = 1 、Y 1 = 0 、X 1 1 = 0 、Y 2 = 1 、X 1 2 = 1 T = 2N=2p=1y1=0x1,1=0y2=1x1,2=1t=2

argminβ0,β1(β02+(1(β0+β1))2)

に拡大

argminβ0,β1(2β02+2β0β12β0+β122β1+1)

これを解決するには、とに関する偏導関数 がゼロで ある解を見つけます 、ソリューションはおよびです。必要に応じて、注意してください。β 1 4 β 0 + 2 β 1 - 2 = 0 2 β 0 + 2 β 1 - 2 = 0 β 0 = 0 β 1 = 1 β 2 0 + β 2 1Tβ0β1

4β0+2β12=0
2β0+2β12=0
β0=0β1=1β02+β12t

この導出は他の公式とどのように関連していますか?説明によると、に一意に対応する値があり、問題のペナルティ付きの定式化を最適化すると、同じとます。この場合、ペナルティ付きの形式は に拡張 これを解くには、に関してT β 0 β 1 A R G M I N β 0β 1λ β 2 0 + β 2 1+ β 2 0 + 1 - β 0 + β 12A R G M I N β 0β 1β 2 0λtβ0β1

argminβ0,β1(λ(β02+β12)+β02+(1(β0+β1))2)
β 0 β 1 2 β 0 λ + 4 β 0 + 2 β 1 - 2 = 0 2 β 0 + 2 β 1 λ +
argminβ0,β1(β02λ+2β02+2β0β12β0+β12λ+β122β1+1)
β0と はゼロです: これらの方程式では、解 これが正しい場合、を取得する唯一の方法は、を設定することです。ただし、これは必要なと同じなので、「1対1の対応」とはどういう意味ですか?β1
2β0λ+4β0+2β12=0
2β0+2β1λ+2β12=0
β0=λ/(λ2+3λ+1)
β1=(λ+1)/((λ+1)(λ+2)1)
β0=0λ=0λt=4

要約すると、私は2つのプレゼンテーションに完全に混乱しており、それらがどのように互いに対応しているのか理解できません。1つのフォームを最適化して他のフォームに対して同じソリューションを取得する方法、またはがどのように関連するかを理解できません。これは、この種の対応の1つの例にすぎません。なげなわなどの他のアプローチには他にもありますが、それらのどれも理解できません。トンλt

誰か助けてください。


1
関連:stats.stackexchange.com/questions/190993(承認された回答を参照)。
amoeba

1
「関連する」リンクは、この質問または示された事例に対処することなく、質問で議論された対応を再表明します。それがこの質問に答えるとは思いません。
Aaron Watters、2016年

回答:


6

ここでの混乱は、回帰に制約がないまたは値の範囲で作業しようとすることから生じます。tλ

あなたの例では、回帰直線の完全な適合で、回帰係数の二乗の合計は1です。したがって、(または1以上の任意の値)の値は、回帰に制約を課しません。値の空間では、制約なしの回帰全体が表され。非制約回帰では、と間に1対1の対応はありません。この場合、1以上ののすべての値は対応し。それはあなたが調査してきた地域でした。t=2tλλ=0tλ tλ=0

1より小さい値のみが、正の値に対応する回帰に制約を課します。このページへの受け入れられた回答が示すように、値が1未満の例では、と間の1対1の対応は「制約が拘束されている場合」を保持します。tλtλt


その場合、彼らは制約が拘束力を持たなければならないことを主張するべきです。つまり、等価性が有効であるためには必要であるということですか?βj2=t
Aaron Watters

1
公平に言えば、制約が拘束されていない場合、制約付き最適化の詳細について人々があまり心配することはないと思います。次に、通常の最小二乗解を取得します。制約がバインドされているとき、最適化はような制約セットの境界で一意の結果を与え、その状況でと 1対1の等価を提供します。βj2=ttλ
EdM 2016年

+1。制約がバインドされていない場合でも、と間には対応関係がありますが、1対1ではありません。非バインドは、@ Aaronによって正しく計算されたマップされます。tλtλ=0
amoeba

参考までに、私はプログラマーです。コンピュータプログラムを作成するときに、メソッドが適切な場合を知ることが重要です。「制約は拘束力でなければならない」というのは、メソッドの多くのプレゼンテーションから省略されているようです。
Aaron Watters

4

古典的なリッジ回帰Tikhonov正則化)は、

argminx12xy22+λx22

上記の主張は、次の問題は同等であるということです:

argminx12xy22subject tox22t

を最初の問題の最適解として定義し、を2番目の問題の最適解として定義しましょう。x^x~

同等の主張は、であることを意味します。 つまり、とペアを常に持つことができるので、問題の解決策は同じです。t,λ0:x^=x~
tλ0

どのようにしてペアを見つけることができますか?
さて、問題を解決し、ソリューションの特性を見ることによって。
どちらの問題も凸状で滑らかなので、物事がより簡単になります。

最初の問題の解決策は、勾配が消えるポイントで与えられます。つまり、

x^y+2λx^=0

2番目の問題のKKT条件は次のように述べています。

x~y+2μx~=0

そして

μ(x~22t)=0

最後の方程式は、またはいずれかであることを示唆しています 。μ=0x~22=t

2つの基本方程式は同等であることに注意してください。
つまり、および、両方の方程式が成立します。 x^=x~μ=λ

つまり、 1つはを設定する必要があります。つまり、が十分に大きいため、両方が等価になるためには設定する必要があり。y22tμ=0tλ=0

もう1つのケースでは、を見つけます。μ

yt(I+2μI)1(I+2μI)1y=t

これは基本的にx~22=t

が見つかったら、解は衝突します。μ

の場合、よく、それは同じ考えで動作します。 唯一の違いは、解決のためにクローズしていないため、接続を導出するのが難しいことです。L1

StackExchange Cross Validated Q291962StackExchange Signal Processing Q21730- Basis Pursuit における重要性λで私の答えを見てください。


ムーはどこから来たの?

上記は2つの異なる問題を解決します。最初のものはを使用しているので、2番目のものの不等式制約のラグランジュ乗数としてを使用しました。μλμ
Royi
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.