Lassoの公式間の関係


9

この質問は馬鹿げているかもしれませんが、ラッソ回帰には2つの異なる定式化があることに気づきました。Lasso問題は、次のように表される、二乗損失と -1ペナルティ項からなる目的を最小化することであることを知っています。 L

minβyXβ22+λβ1

しかし、なげなわ推定器が

β^n(λ)=argminβ{12nyXβ22+λβ1}

私の質問は、同等ですか?\ frac {1} {2n}という用語はどこから来るのですか?12n2つの製剤間の関係は私には明らかではありません。

[更新]私が尋ねるべきもう一つの質問は、

なぜ2番目の定式化があるのですか?理論的または計算的に、そのように問題を定式化する利点は何ですか?


2
あなたが設定した場合第二の製剤中に等しい倍最初の製剤で、2番目の製剤中の目的関数は、倍の最初の製剤における目的関数。実際には、損失の測定単位を変更しただけです。最適値を変更するとどう思いますか?λ1/(2n)λ1/(2n)β
whuber

ありがとう、@ Whuber。それは私には理にかなっています。では、なぜ後者の定式化があるのでしょうか。理論的または計算的に、そのように問題を定式化する利点は何ですか?
アーロンZeng 2014

回答:


10

はいつでも再スケーリングできるため、これらは実際には同等です(@whuberのコメントも参照)。理論的には便利ですが、私の知る限りでは必要ありません。計算の観点からは、実際には非常に煩わしいので、正則化を使用するアルゴリズムを設計する場合は、通常、最初の公式を使用します。λ1/(2n)

ちょっとした裏話:私が最初にペナルティ付きの方法について学び始めたとき、私は自分の仕事のどこにでもを持ち運ぶことに悩まされたので、それを無視することを好んだ-それは私の計算の一部を簡略化さえした。当時、私の仕事は主に計算でした。最近では、理論的な作業を行っており、不可欠であることがわかりましたたとえば、)。1/(2n)1/(2n)1/n

詳細:あなたがサンプルサイズの関数としての投げ縄の挙動を解析しようとすると、あなたが頻繁にiid確率変数の合計に対処する必要があり、実際にはで正規化した後に、このような金額を分析するために、一般的に、より便利である - -多数の法則/中心極限定理(または、ファンシー、測度の集中、および経験的プロセス理論を得たい場合)。損失の前に項がない場合、最終的には分析の最後に何かを再スケーリングすることになるので、最初からそこに置いておくのが一般的により良い方法です。、それはいくつかの迷惑な要因が相殺するので便利であるnn1/n1/22 分析(たとえば、損失の2乗項の導関数を使用する場合)。

これを考えるもう1つの方法は、理論を実行するとき、一般的にが増加するときの解の動作に関心があるということです。つまり、は一定の量ではありません。実際には、いくつかの固定データセットに対して投げ縄を実行すると、アルゴリズム/計算の観点から、は実際に固定されます。したがって、追加の正規化要素を前に出すことは、それほど役に立ちません。nnn

これらは利便性の面倒な問題のように思えるかもしれませんが、これらの種類の不等式を操作するのに十分な時間を費やした後、私はを愛することを学びました。1/(2n)


3
それらの正規化定数が何のためにあるかを理解したら、どこでもそれらを見るようになります
マシューDrury

この説明をありがとうございます。私たちはこのドメインでの素晴らしい経験を読んでとても誇りに思っています。もう一度ありがとう
クリスティーナ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.