KKTを使用した Norm正則回帰と Norm制約付き回帰の同等性の表示


11

参考文献によると、ブック1ブック2および

正則化された回帰(Ridge、LASSO、Elastic Net)とそれらの制約式の間には同等性があると述べられています。

私も見てきましたクロス検証済み1、およびクロス検証済み2、私は明確な答え等価ショーやロジックを見ることができません。

私の質問は

Karush–Kuhn–Tucker(KKT)を使用してその同等性を示す方法は?

次の式はリッジ回帰用です。

海嶺

注意

この質問は宿題ではありません。このトピックの理解を深めるだけです。

更新

私はまだアイデアを思いつきません。


なぜ複数の答えが必要なのですか?現在の答えは問題を包括的に扱っているようです。最適化の方法について詳しく知りたい場合は、Convex最適化の Lieven VandenbergheとStephen P. Boydが出発点として最適です。
Sycoraxはモニカを復活させる

@Sycorax、あなたのコメントとあなたが私に提供した本に感謝します。答えは私にはあまり明確ではなく、さらに明確にすることはできません。このように、複数の答えがあると、別の見方や説明の仕方を見ることができます。
jeza

@jeza、私の答えに何が欠けていますか?
Royi

1
写真を投稿するだけでなく、質問をテキストとして入力してください(ここを参照 )。
ガン-モニカの復活

回答:


10

より技術的な答えは、制約付き最適化問題はラグランジュ乗数に関して記述できるためです。特に、制約付き最適化問題に関連するラグランジアンは、によって与えられます。 ここで、は問題の制約を満たすように選択された乗数です。したがって、この最適化問題の1次条件(適切な凸関数を使用しているので十分です)は、ラグランジュをに関して微分することで取得できます。

L(β)=argminβ{i=1N(yij=1pxijβj)2}+μ{(1α)j=1p|βj|+αj=1pβj2}
μβそして導関数を0に等しく設定します(LASSO部分は微分不可能な点があるため少し微妙ですが、凸解析から導関数を一般化して1次条件を引き続き機能させる方法があります)。これらの1次条件が、記述した制約のない問題の1次条件と同じであることは明らかです。

ただし、これらの最適化問題では一般に、制約付き最適化問題のレンズを通して、または制約なし問題のレンズを通して問題を考えることがしばしば可能である理由を理解することは有用だと思います。より具体的には、次の形式の制約のない最適化問題があると仮定します。 常にこの最適化を直接解決しようとすることができますが、この問題を次のように分解することは意味があるかもしれませんサブコンポーネント。特に、であることを確認するのは難しくありません したがって、固定値の

maxxf(x)+λg(x)
maxxf(x)+λg(x)=maxt(maxxf(x) s.t g(x)=t)+λt
λ(そして最適化される関数が実際にそれらの最適化を達成すると仮定して)、それに外部の最適化問題を解決する値を関連付けることができます。これにより、制約のない最適化問題から制約のある問題への一種のマッピングが可能になります。特定の設定では、エラスティックネット回帰ではすべてが適切に動作するため、このマッピングは実際には1対1である必要があるため、特定のアプリケーションにとってどちらがより有用であるかに応じて、これら2つのコンテキストを切り替えることができると便利です。一般に、制約のある問題と制約のない問題の関係はうまく機能しない場合がありますが、制約のある問題と制約のない問題の間をどの程度移動できるかを検討することは有用です。t

編集:要求に応じて、リッジ回帰のより具体的な分析を含めます。これは、LASSOペナルティの微分不可能性に関連する専門性に対処する必要がないように、主要なアイデアをキャプチャするためです。思い出してください(マトリックス表記で)最適化問題を解決しています:

argminβ{i=1NyixiTβ}s.t.||β||2M

してみましょう OLS溶液(すなわち何の制約がない場合)こと。次に、の場合に焦点を当てます (これが存在する場合)それ以外の場合、拘束はバインドされないため興味をそそられません。この問題のラグランジアンは、と書くことができます 次に微分すると、1次条件が得られます: これは線形方程式のシステムであり、したがって解くことができます: βOLSM<||βOLS||

L(β)=argminβ{i=1NyixiTβ}μ||β||2M
0=2(i=1Nyixi+(i=1NxixiT+μI)β)
β^=(i=1NxixiT+μI)1(i=1Nyixi)
乗数選択する場合。乗数は、制約が真になるように単純に選択されます。つまり、μ

((i=1NxixiT+μI)1(i=1Nyixi))T((i=1NxixiT+μI)1(i=1Nyixi))=M
は、LHSが単調であるため存在します。この方程式は、乗数から制約への明示的なマッピングを提供します RHSが存在し、 このマッピングは実際には非常に直感的なものに対応しています。定理が封筒ことを教えてくれるμμ(0,)M(0,||βOLS||)
limμ0M(μ)=||βOLS||
limμM(μ)=0
μ(M)制約小さな緩和から得られる誤差のわずかな減少に対応します。これは、が対応する場合の理由を説明しています 。拘束が拘束されなくなると、それを緩和する価値はなくなります。そのため、乗数は消えます。Mμ0M||βOLS||


可能な場合は、具体的な例を挙げて詳細な回答を段階的に提供していただけませんか。
jeza

どうもありがとう、なぜKKTについて言及しないのですか?私はこの地域に詳しくないので、高校生として扱います。
jeza

この場合のKKT条件は、ラグランジュを微分し、導関数を0に設定することで言及した「1次条件」を一般化したものです。この例では、制約が等しいため、KKT条件は必要ありません。一般的にいっぱい。より複雑なケースでは、上記の等式の一部が不等式になり、制約が非拘束になるため乗数が0になるだけです。たとえば、これは場合に正確に何が起こるかです上記で。M>||βOLS||
stats_model

3

素晴らしい分析があるstats_modelでの彼の答えが

はリッジ回帰の等価式の証明で同様の質問に答えてみました。

このケースでは、より実践的なアプローチを採用します。2つのモデルのと
間のマッピングを見てみましょう。tλ

私が書いたから見ることができstats_model彼の分析マッピングは、データに依存します。したがって、問題の具体的な実現方法を選択します。しかし、コードとソリューションのスケッチは、何が起こっているかを直感的に追加します。

次の2つのモデルを比較します。

The Regularized Model: argminx12Axy22+λx22

The Constrained Model: argminx12Axy22subject tox22t

が正則化モデルの解であり、が制約付きモデルの解であると仮定しましょう。x^x~

ようなからへのマッピングを調べています。 上で見て私の解決策へのノーム制約最小二乗のためのソルバー 1は、正則モデルを解決し、発見制約モデルが含ま解くことを見ることができました一致した(実際のコードがで提示されたユークリッド(最小二乗)ノルム制約)。tλx^=x~
λtL2

したがって、同じソルバーを実行し、ごとに最適な表示します。tλ

ソルバーは基本的に以下を解決します:

argλλsubject to(ATA+2λI)1ATb22t=0

だからここに私たちのマトリックスがあります:

mA =

   -0.0716    0.2384   -0.6963   -0.0359
    0.5794   -0.9141    0.3674    1.6489
   -0.1485   -0.0049    0.3248   -1.7484
    0.5391   -0.4839   -0.5446   -0.8117
    0.0023    0.0434    0.5681    0.7776
    0.6104   -0.9808    0.6951   -1.1300

そしてここに私たちのベクトルがあります:

vB =

    0.7087
   -1.2776
    0.0753
    1.1536
    1.2268
    1.5418

これはマッピングです:

ここに画像の説明を入力してください

上記からわかるように、の十分に高い値では、期待どおりにパラメーターです。tλ=0

[0、10]の範囲にズームイン:

ここに画像の説明を入力してください

完全なコードは、私のStackExchange Cross Validated Q401212 GitHubリポジトリで入手できます

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.